在使用张量流训练模型时,随机卡住并导致 Windows 蓝屏崩溃

问题描述 投票:0回答:1

我正在尝试训练 StegaStamp 模型,该模型由 TF1 编码。我将其修改为TF2的代码(使用compat.v1,禁用急切执行并禁用v2行为等),代码可以在CPU模式下运行(数万个epoch)。但当我尝试使用GPU进行训练时,程序运行几百或不到2000个epoch就会卡住,Windows会在几十秒后蓝屏重启。 GPU RTX A4000 CPU 5600G 16G内存 TF 2.10.1 CUDA 11.8.0,CUDA11.X 的 cuDNN 8.9.6.50

我尝试降级tf cuda cudnn等版本,例如tf2.7.0 cuda11.6 cudnn8.3.2(网上给出的可用组合)。但程序只是在第一个纪元退出,并显示“进程已完成,退出代码 -1073740791 (0xC0000409)”,并且没有引发任何异常。

我也尝试了几个版本的 Nvidia 显卡驱动程序,但没有帮助。

tensorflow deep-learning
1个回答
-1
投票

解决 TensorFlow、CUDA 和 GPU 兼容性问题对于顺利进行模型训练至关重要。当使用 GPU 将 TF1 StegaStamp 模型转换为 TF2 时,遇到崩溃需要采取策略性方法。以下是解决并可能解决该问题的五个主要步骤。

  1. 兼容性检查:

    • 确保 TensorFlow、CUDA 和 cuDNN 版本符合兼容性建议。有关版本兼容性列表,请参阅官方文档。版本不匹配可能会导致不稳定。 TensorFlow 指南
  2. GPU 配置和内存:

    • 使用
      tf.config.list_physical_devices('GPU')
      确认 GPU 检测。如果需要管理 GPU 内存,请调整批量大小。内存分配不足可能会导致训练期间崩溃。
  3. CUDA路径和Nvidia驱动程序:

    • 验证 CUDA bin 目录是否在系统的 PATH 变量中。为您的 GPU 安装推荐的 Nvidia 驱动程序,并确保它支持所使用的 CUDA 版本。不正确的路径或过时的驱动程序可能会导致不稳定。

NVIDIA cuDNN 文档

  1. 详细错误日志:

    • 仔细检查 TensorFlow 和 CUDA 错误的详细错误日志。日志通常会查明导致崩溃的确切位置或操作。识别具体问题对于有效排除故障至关重要。
  2. 分析工具和社区支持:

    • 利用 NVIDIA Nsight 等分析工具来分析 GPU 性能。探索 TensorFlow 和 CUDA 社区论坛,向可能遇到类似问题的用户寻求见解。社区支持可以提供有价值的故障排除提示。

通过系统地解决兼容性、GPU 配置、错误日志和社区资源问题,您可以增强 TF2 StegaStamp 模型在 GPU 上的稳定性。这种方法旨在识别和解决关键问题,确保更顺利的过渡和培训体验。

如果问题仍然存在,请在此处与我联系 - 单击此处

© www.soinside.com 2019 - 2024. All rights reserved.