将作业参数提交给Dataproc中的Spark作业

Question

尝试在GCP Dataproc群集上运行Spark-Wiki-Parser。该代码接受两个参数“ dumpfile”和“ destloc”。当我提交以下内容时，我会得到一个[scallop] Error: Excess arguments provided: 'gs://enwiki-latest-pages-articles.xml.bz2 gs://output_dir/'。

gcloud dataproc jobs submit spark --cluster $CLUSTER_NAME --project $CLUSTER_PROJECT \
--class 'com.github.nielsenbe.sparkwikiparser.wikipedia.sparkdbbuild.DatabaseBuildMain' \
--properties=^#^spark.jars.packages='com.databricks:spark-xml_2.11:0.5.0,com.github.nielsenbe:spark-wiki-parser_2.11:1.0' \
--region=$CLUSTER_REGION \
-- 'gs://enwiki-latest-pages-articles.xml.bz2' 'gs://output_dir/'

我如何获得识别输入参数的代码？

Answer 1

似乎Scala类需要dumpfile和destloc作为args。您可以改为运行以下命令，然后尝试运行吗？

gcloud dataproc jobs submit spark --cluster $CLUSTER_NAME --project $CLUSTER_PROJECT \
--class 'com.github.nielsenbe.sparkwikiparser.wikipedia.sparkdbbuild.DatabaseBuildMain' \
--properties=^#^spark.jars.packages='com.databricks:spark-xml_2.11:0.5.0,com.github.nielsenbe:spark-wiki-parser_2.11:1.0' \
--region=$CLUSTER_REGION \
-- dumpfile gs://enwiki-latest-pages-articles.xml.bz2 destloc gs://output_dir/

将作业参数提交给Dataproc中的Spark作业

问题描述投票：0回答：1

1个回答

最新问题

将作业参数提交给Dataproc中的Spark作业

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1