我使用mobilenet模型来训练我的图像。它工作正常。为了提高准确性,我尝试使用faster_rcnn_resnet101_coco模型来复制相同的步骤。我使用的所有步骤都是一样的。当我开始训练课程时,它开始运行大约800步。此时的训练损失约为0.5,这似乎太好了。它在此步骤停止并抛出以下错误:
副本工作者1退出时的非零状态为1.终止原因:错误。回溯(最近一次调用最后一次):文件“/usr/lib/python2.7/runpy.py”,第174行,在_run_module_as_main“main”,fname,loader,pkg_name)文件“/usr/lib/python2.7/ runpy.py“,第72行,在run_globals文件中的_run_code exec代码中”/root/.local/lib/python2.7/site-packages/object_detection/train.py“,第163行,在tf.app.run()中文件“/usr/local/lib/python2.7/dist-packages/tensorflow/python/platform/app.py”,第48行,运行_sys.exit(main(_sys.argv [:1] + flags_passthrough))文件“/root/.local/lib/python2.7/site-packages/object_detection/train.py”,第159行,在主worker_job_name中,is_chief,FLAGS.train_dir)文件“/root/.local/lib/python2。 7 / site-packages / object_detection / trainer.py“,第332行,火车保护程序=保护程序)文件”/usr/local/lib/python2.7/dist-packages/tensorflow/contrib/slim/python/slim/learning .py“,第763行,在train sess,train_op,global_step,train_step_kwargs)文件”/usr/local/lib/python2.7/dist-packages/tensorflow/contrib/slim/python/slim/learning.py“,line 487,在train_step run_ metadata = run_metadata)文件“/usr/local/lib/python2.7/dist-packages/tensorflow/python/client/session.py”,第889行,运行run_metadata_ptr)文件“/ usr / local / lib / python2。 7 / dist-packages / tensorflow / python / client / session.py“,第1120行,在_run feed_dict_tensor,options,run_metadata中)文件”/usr/local/lib/python2.7/dist-packages/tensorflow/python/client /session.py“,第1317行,在_do_run选项中,run_metadata)文件”/usr/local/lib/python2.7/dist-packages/tensorflow/python/client/session.py“,第1336行,在_do_call引发类型(e)(node_def,op,message)UnavailableError:端点读取失败要了解有关工作退出原因的更多信息,请查看日志:https://console.cloud.google.com/logs/viewer?project=341450659208&resource=ml_job%2Fjob_id%2Fobject_detection_188003&advancedFilter=resource.type%3D%22ml_job%22%0Aresource.labels.job_id%3D%22object_detection_188003%22
知道问题可能是什么?任何帮助深表感谢。
感谢您的反馈。我们仍在调查此问题,请立即使用1.2运行时版本。