将作业参数提交给Dataproc中的Spark作业

问题描述 投票:0回答:1

尝试在GCP Dataproc群集上运行Spark-Wiki-Parser。该代码接受两个参数“ dumpfile”和“ destloc”。当我提交以下内容时,我会得到一个[scallop] Error: Excess arguments provided: 'gs://enwiki-latest-pages-articles.xml.bz2 gs://output_dir/'

gcloud dataproc jobs submit spark --cluster $CLUSTER_NAME --project $CLUSTER_PROJECT \
--class 'com.github.nielsenbe.sparkwikiparser.wikipedia.sparkdbbuild.DatabaseBuildMain' \
--properties=^#^spark.jars.packages='com.databricks:spark-xml_2.11:0.5.0,com.github.nielsenbe:spark-wiki-parser_2.11:1.0' \
--region=$CLUSTER_REGION \
-- 'gs://enwiki-latest-pages-articles.xml.bz2' 'gs://output_dir/'

我如何获得识别输入参数的代码?

apache-spark google-cloud-dataproc
1个回答
0
投票

似乎Scala类需要dumpfile和destloc作为args。您可以改为运行以下命令,然后尝试运行吗?

gcloud dataproc jobs submit spark --cluster $CLUSTER_NAME --project $CLUSTER_PROJECT \
--class 'com.github.nielsenbe.sparkwikiparser.wikipedia.sparkdbbuild.DatabaseBuildMain' \
--properties=^#^spark.jars.packages='com.databricks:spark-xml_2.11:0.5.0,com.github.nielsenbe:spark-wiki-parser_2.11:1.0' \
--region=$CLUSTER_REGION \
-- dumpfile gs://enwiki-latest-pages-articles.xml.bz2 destloc gs://output_dir/
© www.soinside.com 2019 - 2024. All rights reserved.