如何为Distributed Tensorflow创建分布式集群环境?

问题描述 投票:0回答:2

我已经阅读了Tensorflow分布式环境的文档,但我无法在任何地方找到如何设置适合Tensorflow的集群。

目前我有10个服务器,我想开始训练模型,但我想知道我需要在除tensorflow库之外的所有集群服务器上安装的依赖项。

要么

如果我使用工作站和参数服务器的IP地址为分布式培训编写的python代码中指定集群规范是否足够或者我有什么遗漏?

tf.train.ClusterSpec({
"worker": [
    "172.09.09.09:1290",
    "172.10.10.10:2040",
    "172.11.11.11:3060"
],
"ps": [
    "172.12.12.12:8080",
    "172.13.13.13:8080"
]})

我可以在tensorflow文档中找到其他所有内容。我应该构建一个类似于apache spark的集群吗?

请帮助为tensorflow集群设置正确的文档流程,或者如果我遗漏了一些东西可以帮助我解决简单的答案。

tensorflow tensorflow-serving
2个回答
0
投票

也许您可以创建一个集群并在其上安装Cloudera Manager,然后可以尝试在其上安装tensorflow库并使用Spark对您的数据执行操作:

https://www.cloudera.com/documentation/enterprise/5-9-x/topics/install_cluster_template.html

拥有群集后,您可以按照最初的操作进行操作,并在Hadoop上运行tensorflow:

https://www.tensorflow.org/deploy/hadoop


-1
投票

您只需要在每台服务器上运行一个脚本。使用相同的代码。每个脚本都获得一些输入作为设置自身的参数。你可以看看这里:https://github.com/tensorflow/examples/blob/master/community/en/docs/deploy/distributed.md

© www.soinside.com 2019 - 2024. All rights reserved.