Hadoop客户端无法连接到数据节点。

问题描述 投票:0回答:1

我在ec2上有一个单节点hadoop集群。我尝试在slave文件中给出所有可能的组合。

May 01 2020 08:16:25.227 DEBUG org.apache.hadoop.hdfs.DFSClient - pipeline = 172.31.45.114:9866 
May 01 2020 08:16:25.227 DEBUG org.apache.hadoop.hdfs.DFSClient - pipeline = 172.31.45.114:9866 
May 01 2020 08:16:25.228 DEBUG org.apache.hadoop.hdfs.DFSClient - Connecting to datanode 172.31.45.114:9866 
May 01 2020 08:16:25.228 DEBUG org.apache.hadoop.hdfs.DFSClient - Connecting to datanode 172.31.45.114:9866 
May 01 2020 08:16:35.167 DEBUG org.apache.hadoop.ipc.Client - IPC Client (2007716372) connection to ec-x.x.x.x/x.x.x.x:54310 from vgs: closed 

我试着将数据节点绑定到外部ip上,但它没有绑定,默认情况下它绑定在机器的内部ip上。

也使用了 dfs.client.use.datanode.hostname 如同true,客户机仍然是接收内部ip而不是外部。

apache-spark hadoop hdfs hadoop3
1个回答
0
投票

为了在EMR上运行spark,你需要至少2个节点(我设法在最小的3个节点上运行它,但从我读到的东西--我假设2个节点也应该是足够的)--1个节点--MASTER是不够的,你需要MASTER和CORE.这里你有一些更全面的指导如何做到这一点。https:/medium.combig-data-on-amazon-elastic-mapreducerun-a-spark-job-within-amazon-emr-in-15分钟-68b02af1ae16。

© www.soinside.com 2019 - 2024. All rights reserved.