yarn hadoop 2.4.0：信息消息：ipc.Client 正在重试连接到服务器

Question

我已经寻找了两天的解决方案。但没有任何效果。

首先，我对整个 hadoop/yarn/hdfs 主题很陌生，想要配置一个小型集群。

每次我从 mapreduce-examples.jar 运行示例时，上面的消息不会显示有时 teragen 有效，有时无效。在某些情况下，整个作业失败，而在其他情况下，作业成功完成。有时作业会失败，而不打印上面的消息。

14/06/08 15:42:46 INFO ipc.Client: Retrying connect to server: FQDN-HOSTNAME/XXX.XX.XX.XXX:53022. Already tried 2 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=3, sleepTime=1000 MILLISECONDS)

此消息已打印 30 次。每次启动作业时，端口（在代码示例中：53022）也会发生变化。如果作业成功完成，这是打印

14/06/08 15:34:20 INFO mapred.ClientServiceDelegate: Application state is completed. FinalApplicationStatus=SUCCEEDED. Redirecting to job history server
14/06/08 15:34:20 INFO mapreduce.Job: Job job_1402234146062_0002 running in uber mode : false
14/06/08 15:34:20 INFO mapreduce.Job:  map 100% reduce 100%
14/06/08 15:34:20 INFO mapreduce.Job: Job job_1402234146062_0002 completed successfully

如果失败，则会显示此信息。

INFO mapreduce.Job: Job job_1402234146062_0005 failed with state FAILED due to: Task failed task_1402234146062_0005_m_000002
Job failed as tasks failed. failedMaps:1 failedReduces:0

在这种情况下，某些任务失败了。但在节点管理器、数据节点、资源管理器...的日志文件中找不到原因或消息。

INFO mapreduce.Job: Task Id : attempt_1402234146062_0006_m_000002_1, Status : FAILED

有关我的配置的其他信息：使用的操作系统：centOS 6.5 Java版本：OpenJDK运行时环境（rhel-2.4.7.1.el6_5-x86_64 u55-b13） OpenJDK 64 位服务器虚拟机（内部版本 24.51-b03，混合模式）

纱线站点.xml

<configuration>

<!-- Site specific YARN configuration properties -->
        <property>
                <name>yarn.nodemanager.address</name>
                <value>FQDN-HOSTNAME:8050</value>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>
        <property>
                  <name>yarn.nodemanager.localizer.address</name>
                  <value>FQDN-HOSTNAME:8040</value>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
                <value>org.apache.hadoop.mapred.ShuffleHandler</value>
        </property>
        <property>
                  <name>yarn.resourcemanager.resource-tracker.address</name>
                  <value>FQDN-HOSTNAME:8025</value>
        </property>
        <property>
                  <name>yarn.resourcemanager.scheduler.address</name>
                  <value>FQDN-HOSTNAME:8030</value>
        </property>
        <property>
                  <name>yarn.resourcemanager.address</name>
                  <value>FQDN-HOSTNAME:8032</value>
        </property>
</configuration>

hdfs-site.xml

    <configuration>
        <property>
                <name>dfs.replication</name>
                <value>2</value>
        </property>
        <property>
                   <name>dfs.permissions </name>
                   <value>false </value>
        </property>
        <property>
                <name>dfs.namenode.name.dir</name>
                <value>file:///var/data/hadoop/hdfs/nn</value>
        </property>
        <property>
                <name>fs.checkpoint.dir</name>
                <value>file:///var/data/hadoop/hdfs/snn</value>
        </property>
        <property>
                <name>fs.checkpoint.edits.dir</name>
                <value>file:///var/data/hadoop/hdfs/snn</value>
                <name>fs.checkpoint.edits.dir</name>
                <value>file:///var/data/hadoop/hdfs/snn</value>
        </property>
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>file:///var/data/hadoop/hdfs/dn</value>
        </property>
</configuration>

mapred-site.xml

<configuration>
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
        <property>
                <name>mapreduce.cluster.temp.dir</name>
                <value>/mapred/tempDir</value>
        </property>
        <property>
                <name>mapreduce.cluster.local.dir</name>
                <value>/mapred/localDir</value>
        </property>
        <property>
                <name>mapreduce.jobhistory.address</name>
                <value>FQDN-HOSTNAME:10020</value>
        </property>
</configuration>

我希望有人能帮助我。 :) 谢谢你，诺曼

Answer 1

作业有时会成功完成，因为当您有一个减速器并且该减速任务偶然被发送到

working

节点管理器时，它就会成为成功的作业。

您必须确保

FQDN-HOSTNAME

在

slaves

文件中以完全相同的方式写入。如果我没记错的话，我的解决方案是我删除了

/etc/hosts

中主机名映射的条目，即像这样注释掉它：

#127.0.0.1    FQDN-HOSTNAME

Answer 2

这是 MR AppMaster 如何使用临时端口启动的错误。它也存在于 Hadoop 2.6.0 发行版本中。
我已经找到了这个错误的修复方法，并在 MAPREDUCE 项目上创建了一个 JIRA 以及有关如何修复它的评论。

https://issues.apache.org/jira/browse/MAPREDUCE-6338

Answer 3

另一种可能的解决方案是检查所有节点中的防火墙。如果您正在处理 iptables，您可以在每个节点上运行它：

# /etc/init.d/iptables save
# /etc/init.d/iptables stop

这将停止防火墙直到下次重新启动，但这应该足以让您测试集群。您不必重新启动纱线或其他任何东西，只需再次运行作业即可。

如果你想完全停止FW：

# chkconfig iptables off

Answer 4

这绝对是一个错误，这篇文章提供了对正在发生的事情的更清晰的了解。 https://groups.google.com/a/cloudera.org/forum/#!msg/cdh-user/P1rfMQmYVWk/eARZXHUTkW0J

我们计划通过减少临时端口范围来解决此问题，从而限制占用哪些端口，然后配置 iptables 以允许该端口范围。设置端口范围的说明如下 - http://www.ncftp.com/ncftpd/doc/misc/ephemeral_ports.html

Answer 5

如果您看到类似

的消息

INFO ipc.Client: Retrying connect to server: <hostname>/<ip>:<port>. Already tried 1 time(s); maxRetries=3

需要检查：

检查客户端和节点管理器之间的防火墙
默认检查yarn.app.mapreduce.am.job.client.port-range，范围是所有可能的端口

Answer 6

哇！这些答案是真实的吗？当工作明确完成时谈论 FQDN...只要禁用防火墙？ OP 甚至还提供了详细的日志消息/配置。

问题是

yarn.app.mapreduce.am.job.client.port-range

没有得到尊重。我也遇到了。

防火墙关闭...一切都很好（我可以从纱线作业中看到临时端口）。

防火墙开启...所有超时（最终）。

霍顿在其他板上完全忽略了这个问题。

这是一个作业的日志输出，它演示了该问题。在第一种情况下，我根据 Horton 的文档在客户端上启用了防火墙（以及我通过仔细查看我的安装发现的other端口）。您会看到该过程超时......然后突然开始工作。因为我在观看作业输出后禁用了防火墙:)

2015-01-15 16:48:22,943 INFO [main] org.apache.hadoop.ipc.Client: Retrying connect to server: de-luster-l2723nraqsy5-ywhniidze3lb-qfk4asn77vc5/10.0.0.41:52015. Already tried 39 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=50, sleepTime=1000 MILLISECONDS)
2015-01-15 16:48:23,349 INFO [main] org.apache.hadoop.mapred.YarnChild: mapreduce.cluster.local.dir for child: /hadoop/yarn/local/usercache/l.admin/appcache/application_1420482341308_0020
2015-01-15 16:48:24,122 INFO [main] org.apache.hadoop.conf.Configuration.deprecation: session.id is deprecated. Instead, use dfs.metrics.session-id
2015-01-15 16:48:24,656 INFO [main] org.apache.hadoop.mapred.Task:  Using ResourceCalculatorProcessTree : [ ]
2015-01-15 16:48:24,724 INFO [main] org.apache.hadoop.mapred.ReduceTask: Using ShuffleConsumerPlugin: org.apache.hadoop.mapreduce.task.reduce.Shuffle@7f94ee59
2015-01-15 16:48:24,792 INFO [main] org.apache.hadoop.mapreduce.task.reduce.MergeManagerImpl: MergerManager: memoryLimit=534354336, maxSingleShuffleLimit=133588584, mergeThreshold=352673888, ioSortFactor=100, memToMemMergeOutputsThreshold=100

你看到了吗？超时问题...然后突然开始随机播放。毕竟与 FQDN 无关:)

Answer 7

对于任何认为有防火墙规则和

yarn-site.xml

的人来说，一切都已到位，但仍然

start-yarn.sh

不起作用。

考虑更改

OpenJDK

版本。这将为您节省几个小时。

我使用

OpenJDK-17.0.10

一切都正确，但我遇到了同样的错误。

我检查了我的HDFS集群上的日志

http://YOUR_IP:9870

，然后我发现了

resourcemanager

和

nodemanager

的问题。这个问题的解决方案可以在这里找到

我将我的

OpenJDK

更新为此配置

OpenJDK Runtime Environment Temurin-11.0.20.1+1 (build 11.0.20.1+1)
OpenJDK 64-Bit Server VM Temurin-11.0.20.1+1 (build 11.0.20.1+1, mixed mode)

并且成功了。

yarn hadoop 2.4.0：信息消息：ipc.Client 正在重试连接到服务器

问题描述投票：0回答：7

7个回答

最新问题

yarn hadoop 2.4.0：信息消息：ipc.Client 正在重试连接到服务器

问题描述 投票：0回答：7

7个回答

最新问题

问题描述投票：0回答：7