我已经阅读了Tensorflow分布式环境的文档,但我无法在任何地方找到如何设置适合Tensorflow的集群。
目前我有10个服务器,我想开始训练模型,但我想知道我需要在除tensorflow库之外的所有集群服务器上安装的依赖项。
要么
如果我使用工作站和参数服务器的IP地址为分布式培训编写的python代码中指定集群规范是否足够或者我有什么遗漏?
tf.train.ClusterSpec({
"worker": [
"172.09.09.09:1290",
"172.10.10.10:2040",
"172.11.11.11:3060"
],
"ps": [
"172.12.12.12:8080",
"172.13.13.13:8080"
]})
我可以在tensorflow文档中找到其他所有内容。我应该构建一个类似于apache spark的集群吗?
请帮助为tensorflow集群设置正确的文档流程,或者如果我遗漏了一些东西可以帮助我解决简单的答案。
也许您可以创建一个集群并在其上安装Cloudera Manager,然后可以尝试在其上安装tensorflow库并使用Spark对您的数据执行操作:
https://www.cloudera.com/documentation/enterprise/5-9-x/topics/install_cluster_template.html
拥有群集后,您可以按照最初的操作进行操作,并在Hadoop上运行tensorflow:
您只需要在每台服务器上运行一个脚本。使用相同的代码。每个脚本都获得一些输入作为设置自身的参数。你可以看看这里:https://github.com/tensorflow/examples/blob/master/community/en/docs/deploy/distributed.md