tf.keras如何保存ModelCheckPoint对象

Question

ModelCheckpoint可用于根据特定的监视指标来保存最佳模型。因此，它显然具有有关存储在其对象中的最佳度量的信息。例如，如果您在google colab上进行培训，则您的实例可能会在没有警告的情况下被杀死，并且经过长时间的培训，您将丢失此信息。

我试图腌制ModelCheckpoint对象，但得到：

TypeError: can't pickle _thread.lock objects

这样，当我拿回笔记本时，我可以重复使用同一对象。有什么好方法吗？您可以尝试通过以下方式重现：

chkpt_cb = tf.keras.callbacks.ModelCheckpoint('model.{epoch:02d}-{val_loss:.4f}.h5',
                                              monitor='val_loss',
                                              verbose=1,
                                              save_best_only=True)

with open('chkpt_cb.pickle', 'w') as f:
  pickle.dump(chkpt_cb, f, protocol=pickle.HIGHEST_PROTOCOL)

Answer 1

我认为您可能会误解ModelCheckpoint对象的预期用途。在特定阶段的训练期间，它是callback定期被调用。特别是，在每个时期之后（如果您保留默认值period=1），都会调用ModelCheckpoint回调，并将您的模型以您为filepath参数指定的文件名保存到磁盘中。以与here相同的方式保存模型。然后，如果您想稍后加载该模型，则可以执行以下操作：

from keras.models import load_model
model = load_model('my_model.h5')

关于SO的其他答案为从已保存的模型继续训练提供了很好的指导和示例，例如：Loading a trained Keras model and continue training。重要的是，保存的H5文件存储了继续训练所需的有关模型的所有信息。

如Keras documentation中的建议，不应使用pickle序列化模型。只需使用您的“ fit”函数注册ModelCheckpoint回调：

chkpt_cb = tf.keras.callbacks.ModelCheckpoint('model.{epoch:02d}-{val_loss:.4f}.h5',
                                              monitor='val_loss',
                                              verbose=1,
                                              save_best_only=True)
model.fit(x_train, y_train,
          epochs=100,
          steps_per_epoch=5000,
          callbacks=[chkpt_cb])

您的模型将保存在您具有的名称的H5文件中，并为您自动设置历元号和损失值。例如，您为第5个时期保存的文件，其损失为0.0023，看起来像model.05-.0023.h5，并且由于您设置了save_best_only=True，因此只有在您的损失好于先前保存的文件的情况下才保存模型，因此您不会污染您的目录中有一堆不需要的模型文件。

Answer 2

如果不对回调对象进行腌制（由于线程问题并且不建议使用，我可以改为对此腌制：

best = chkpt_cb.best

这存储了回调已看到的最佳监视指标，它是一个浮动值，您可以在下次腌制并重新加载它，然后执行此操作：

chkpt_cb.best = best   # if chkpt_cb is a brand new object you create when colab killed your session.

这是我自己的设置：

# All paths should be on Google Drive, I omitted it here for simplicity.

chkpt_cb = tf.keras.callbacks.ModelCheckpoint(filepath='model.{epoch:02d}-{val_loss:.4f}.h5',
                                              monitor='val_loss',
                                              verbose=1,
                                              save_best_only=True)

if os.path.exists('chkpt_cb.best.pickle'):
  with open('chkpt_cb.best.pickle', 'rb') as f:
    best = pickle.load(f)
    chkpt_cb.best = best

def save_chkpt_cb():
  with open('chkpt_cb.best.pickle', 'wb') as f:
    pickle.dump(chkpt_cb.best, f, protocol=pickle.HIGHEST_PROTOCOL)

save_chkpt_cb_callback = tf.keras.callbacks.LambdaCallback(
    on_epoch_end=lambda epoch, logs: save_chkpt_cb()
)

history = model.fit_generator(generator=train_data_gen,
                          validation_data=dev_data_gen,
                          epochs=5,
                          callbacks=[chkpt_cb, save_chkpt_cb_callback])

因此，即使您的colab会话被杀死，您仍然可以检索最新的最佳指标并向您的新实例通知该指标，并照常继续培训。当您重新编译有状态的优化器时，这特别有帮助，可能会导致损耗/度量值下降，并且不想在最初的几个时期保存这些模型。

tf.keras如何保存ModelCheckPoint对象

问题描述投票：0回答：2

2个回答

最新问题

tf.keras如何保存ModelCheckPoint对象

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2