我在ec2上有一个单节点hadoop集群。我尝试在slave文件中给出所有可能的组合。
May 01 2020 08:16:25.227 DEBUG org.apache.hadoop.hdfs.DFSClient - pipeline = 172.31.45.114:9866
May 01 2020 08:16:25.227 DEBUG org.apache.hadoop.hdfs.DFSClient - pipeline = 172.31.45.114:9866
May 01 2020 08:16:25.228 DEBUG org.apache.hadoop.hdfs.DFSClient - Connecting to datanode 172.31.45.114:9866
May 01 2020 08:16:25.228 DEBUG org.apache.hadoop.hdfs.DFSClient - Connecting to datanode 172.31.45.114:9866
May 01 2020 08:16:35.167 DEBUG org.apache.hadoop.ipc.Client - IPC Client (2007716372) connection to ec-x.x.x.x/x.x.x.x:54310 from vgs: closed
我试着将数据节点绑定到外部ip上,但它没有绑定,默认情况下它绑定在机器的内部ip上。
也使用了 dfs.client.use.datanode.hostname
如同true,客户机仍然是接收内部ip而不是外部。
为了在EMR上运行spark,你需要至少2个节点(我设法在最小的3个节点上运行它,但从我读到的东西--我假设2个节点也应该是足够的)--1个节点--MASTER是不够的,你需要MASTER和CORE.这里你有一些更全面的指导如何做到这一点。https:/medium.combig-data-on-amazon-elastic-mapreducerun-a-spark-job-within-amazon-emr-in-15分钟-68b02af1ae16。