Python - 如何通过命令行参数运行 Hadoop 流

Question

我需要学校项目的帮助。

对于我所做的实验，我用 python（版本 3）编写了映射器和化简器脚本，并且能够毫无问题地运行 hadoop 流。然后我编辑了脚本来处理 2 个不同格式的文件，我的脚本决定如何使用我将传递到 mapper.py 脚本中的命令行参数来格式化映射器数据。

命令行看起来像这样

python mapper.py abcd defg 1

每次我将其传递到hadoop流中时，我都会不断收到“python文件不可读”的消息。我需要一些帮助！

Answer 1

将占位符替换为您的特定用例的实际值。以下是重要组件的细分：

path_to_streaming_jar：将其替换为 Hadoop 安装中 Hadoop Streaming JAR 文件的实际路径。 input_path：Hadoop 作业的 HDFS 输入目录或文件。 output_path：Hadoop 作业结果的 HDFS 输出目录。 mapper_script：映射器脚本或可执行文件的路径。 reducer_script：reducer 脚本或可执行文件的路径。：特定应用程序所需的任何其他命令行参数，例如 -file、-cmdenv 或特定于脚本的自定义参数。确保您的脚本在 Hadoop 集群的文件系统上可执行且可用，并且指定的输入目录中存在必要的输入数据。

当所有组件设置完毕后，就可以在终端上执行该命令了。这将使用提供的映射器和化简器脚本以及任何其他参数启动 Hadoop Streaming 作业。

如果您有具体的附加参数或更详细的用例，请提供更多信息以进一步帮助您。

Python - 如何通过命令行参数运行 Hadoop 流

问题描述投票：0回答：1

1个回答

最新问题

Python - 如何通过命令行参数运行 Hadoop 流

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1