我需要学校项目的帮助。
对于我所做的实验,我用 python(版本 3)编写了映射器和化简器脚本,并且能够毫无问题地运行 hadoop 流。然后我编辑了脚本来处理 2 个不同格式的文件,我的脚本决定如何使用我将传递到 mapper.py 脚本中的命令行参数来格式化映射器数据。
命令行看起来像这样
python mapper.py abcd defg 1
每次我将其传递到hadoop流中时,我都会不断收到“python文件不可读”的消息。我需要一些帮助!
将占位符替换为您的特定用例的实际值。以下是重要组件的细分:
path_to_streaming_jar:将其替换为 Hadoop 安装中 Hadoop Streaming JAR 文件的实际路径。 input_path:Hadoop 作业的 HDFS 输入目录或文件。 output_path:Hadoop 作业结果的 HDFS 输出目录。 mapper_script:映射器脚本或可执行文件的路径。 reducer_script:reducer 脚本或可执行文件的路径。 :特定应用程序所需的任何其他命令行参数,例如 -file、-cmdenv 或特定于脚本的自定义参数。 确保您的脚本在 Hadoop 集群的文件系统上可执行且可用,并且指定的输入目录中存在必要的输入数据。
当所有组件设置完毕后,就可以在终端上执行该命令了。这将使用提供的映射器和化简器脚本以及任何其他参数启动 Hadoop Streaming 作业。
如果您有具体的附加参数或更详细的用例,请提供更多信息以进一步帮助您。