如何为Distributed Tensorflow创建分布式集群环境？

Question

我已经阅读了Tensorflow分布式环境的文档，但我无法在任何地方找到如何设置适合Tensorflow的集群。

目前我有10个服务器，我想开始训练模型，但我想知道我需要在除tensorflow库之外的所有集群服务器上安装的依赖项。

要么

如果我使用工作站和参数服务器的IP地址为分布式培训编写的python代码中指定集群规范是否足够或者我有什么遗漏？

tf.train.ClusterSpec({
"worker": [
    "172.09.09.09:1290",
    "172.10.10.10:2040",
    "172.11.11.11:3060"
],
"ps": [
    "172.12.12.12:8080",
    "172.13.13.13:8080"
]})

我可以在tensorflow文档中找到其他所有内容。我应该构建一个类似于apache spark的集群吗？

请帮助为tensorflow集群设置正确的文档流程，或者如果我遗漏了一些东西可以帮助我解决简单的答案。

Answer 1

也许您可以创建一个集群并在其上安装Cloudera Manager，然后可以尝试在其上安装tensorflow库并使用Spark对您的数据执行操作：

https://www.cloudera.com/documentation/enterprise/5-9-x/topics/install_cluster_template.html

拥有群集后，您可以按照最初的操作进行操作，并在Hadoop上运行tensorflow：

https://www.tensorflow.org/deploy/hadoop

Answer 2

您只需要在每台服务器上运行一个脚本。使用相同的代码。每个脚本都获得一些输入作为设置自身的参数。你可以看看这里：https://github.com/tensorflow/examples/blob/master/community/en/docs/deploy/distributed.md

如何为Distributed Tensorflow创建分布式集群环境？

问题描述投票：0回答：2

2个回答

最新问题

如何为Distributed Tensorflow创建分布式集群环境？

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2