在没有 GPU 的机器上加载模型时出现 Cuda 驱动程序错误

问题描述 投票:0回答:2

我有一台只有很少 NVidia GPU 的计算机,使用数据包“segmentation_models”并在 Unet 的基础上构建神经网络:

import segmentation_models as sm
import keras.backend as K
from keras import optimizers
from keras.utils import multi_gpu_model

lr = 2e-4
NUM_GPUS = 3
learning_rate = lr * NUM_GPUS

adam = optimizers.Adam(lr=learning_rate)

def dice_coef(y_true, y_pred, smooth=1):
    y_true_f = K.flatten(y_true)
    y_pred_f = K.flatten(y_pred)
    intersection = K.sum(y_true_f * y_pred_f)
    return (2. * intersection + smooth) / (K.sum(y_true_f) + K.sum(y_pred_f) + smooth)

model = sm.Unet('efficientnetb3', encoder_weights='imagenet', classes=4, activation='softmax', encoder_freeze=False)
parallel_model = multi_gpu_model(model, gpus=NUM_GPUS)
model = parallel_model
model.compile(adam, 'categorical_crossentropy', [dice_coef])
history = model.fit_generator(
        generator=train_gen, steps_per_epoch=len(train_gen), \
        validation_data=validation_gen, \
        epochs=50, callbacks=[clr, checkpoints, csv_logger],
        initial_epoch=0)

训练后,我保存权重以供将来在 cpu 模式下使用:

single_gpu_model = model.layers[-2]
single_gpu_model.save(single_proc_model_path_1_kernel)

我尝试使用这些重量:

import keras
model1 = keras.models.load_model(single_proc_model_path_1_kernel)
...
pr_mask = self.model1.predict(img_exp)
  • 神经网络训练机器: Ubuntu 16.04.4 LTS,3 x K80 GPU; python 3.6.7,tensorflow 1.12.0 - 所有代码都可以在这里工作。
  • Win10,配备 1 个 GeForce GTX 1080; python 3.7.3,tensorflow-gpu 1.13.1 - 代码也可以在这里工作。
  • 不带 NVidia GPU 的 Win10; tensorflow-gpu 1.13.1 - 加载模型时出错:

tensorflow/stream_executor/cuda/cuda_driver.cc:300] 调用 cuInit 失败:CUDA_ERROR_NO_DEVICE:未检测到支持 CUDA 的设备

  • docker 与 Ubuntu 18.04.3 LTS; python 3.6.9,张量流2.1.0。
    加载模型时出错:

tensorflow/stream_executor/platform/default/dso_loader.cc:55] 无法加载动态库“libnvinfer.so.6”; dlerror: libnvinfer.so.6: 无法打开共享对象文件: 没有这样的文件或目录 tensorflow/stream_executor/platform/default/dso_loader.cc:55] 无法加载动态库“libnvinfer_plugin.so.6”; dlerror: libnvinfer_plugin.so.6: 无法打开共享对象文件: 没有这样的文件或目录 tensorflow/compiler/tf2tensorrt/utils/py_utils.cc:30] 无法 dlopen 某些 TensorRT 库。如果您想将 Nvidia GPU 与 TensorRT 一起使用,请确保正确安装上述缺少的库。 细分模型:使用

keras
框架。 tensorflow/stream_executor/platform/default/dso_loader.cc:55] 无法加载动态库“libcuda.so.1”; dlerror: libcuda.so.1: 无法打开共享对象文件: 没有这样的文件或目录 tensorflow/stream_executor/cuda/cuda_driver.cc:351] 调用 cuInit 失败:未知错误(303) 我tensorflow/stream_executor/cuda/cuda_diagnostics.cc:156]内核驱动程序似乎没有在此主机上运行(b36a4cf2df2e):/proc/driver/nvidia/version 不存在

我应该改变什么来强制代码在只有 CPU 的机器上运行?

python tensorflow keras
2个回答
0
投票

Tensorflow 1.15 解决了所有问题。


-1
投票

您可以尝试将环境变量

CUDA_VISIBLE_DEVICES
设置为空白或空字符串
""
,或者可能为
-1

否则,您需要告诉张量流后端仅使用CPU。

另请参阅:具有 Tensorflow 后端的 Keras 可以强制随意使用 CPU 或 GPU 吗?

请注意,keras multi_gpu_model 已弃用,您应该更改代码以使用tf.distribute.MirroredStrategy。我个人没有使用过它,但我想这个新 API 的设计目的是为了在像您这样的 GPU/CPU 情况下更无缝地工作。

© www.soinside.com 2019 - 2024. All rights reserved.