google-cloud-dataproc 相关问题

Google Cloud Dataproc是Google云端平台上的托管Hadoop MapReduce,Spark,Pig和Hive服务。该服务提供GUI,CLI和HTTP API访问模式,用于部署/管理集群以及将作业提交到集群。

在dataproc群集节点上设置环境变量的正确方法是什么?

我希望在我的dataproc群集的每个节点上设置一个环境变量,以便该变量可用于将在该群集上运行的pyspark作业。做这个的最好方式是什么?我是...

回答 2 投票 1

Scala Spark Bigquery Connector问题-InternalException:grpc.StatusRuntimeException

我在本地运行Spark Scala代码时遇到以下错误:线程“ main”中的异常com.google.cloud.spark.bigquery.repackaged.com.google.api.gax.rpc.InternalException:com.google.cloud .spark ....

回答 1 投票 1

在GCP DataProc上配置Spark执行器

我无法配置yarn和spark以利用我在GCP上的Dataproc Spark集群上的所有资源。我正在运行一个1个主节点(4个核心)和2个工作人员(16个核心)的集群,我希望获得火花...

回答 1 投票 1

我如何将计算机添加到GCP AI平台?

根据该问题的建议,我一直在运行一个使用Tensorflow进行运行的Python应用程序,并使用AI平台将结果输出到csv文件。我一直在使用Jupyter。 ...

回答 1 投票 1

从模板创建dataproc集群

如何从现有群集的模板(即yaml文件)创建dataproc群集时如何更改群集映像版本?在这里,我现有的集群具有较旧版本的dataproc映像...

回答 1 投票 1

无法在Google Cloud Platform上创建Dataproc群集,“ NodeInitializationAction必须指定可执行文件”

在Google Cloud Platform上创建Dataproc Cluster时遇到以下错误。我们正在将Mercury插件用于Airflow。只是想了解是什么问题。我尝试了很多选择,但直到现在...

回答 1 投票 2

Dataproc覆盖执行程序的内存

我们以前在Hadoop集群上运行带有以下参数的Spark作业:{'conn_id':'spark_default','num_executors':10,'executor_cores':4,4,'executor_memory':'15G','。 。

回答 1 投票 1

Dataproc上的增量Sqoop给出“ util.AppendUtils:无法将文件追加到目标目录;没有这样的目录”

我可以通过hadoop / google dataproc上的sqoop作业运行Postgresql表的完整导出,以导出到google存储桶。但是,当我尝试增量导出时,它会失败。 gcloud dataproc作业...

回答 1 投票 3

使用PySpark的ETL雪花作业在本地而不在Dataproc上工作

我创建了一个火花作业,并且首先在本地对其进行了测试,并且可以完美地工作。但是,将spark作业传递给Dataproc之后,它将返回以下错误:py4j.protocol.Py4JJavaError:...

回答 1 投票 1

如何在GCP中以集群模式运行Spark作业?

在GCP中,我们要在dataproc群集上以群集模式运行spark作业。当前,我们正在使用以下命令gcloud dataproc作业提交spark --cluster xxxx-xxxx-dataproc-cluster01 --...

回答 1 投票 0

Google Spark-BigQuery-Connector如何利用BigQuery Storage API?

根据https://cloud.google.com/dataproc/docs/concepts/connectors/bigquery,连接器使用BigQuery Storage API来使用gRPC读取数据。但是,我在...

回答 1 投票 1

GCP比Mac OS花费更多的时间

这是我的代码的一部分:def get_symbol_wise_csv(df,original_file_path):symbol = df.write.mode(“ append”)。partitionBy(“ SMBL”)。csv('%s /'%(BUCKET_PATH))in Mac for 2个文件夹,占用少于10个...

回答 1 投票 -1

组件网关通过terraform实现dataproc集群的问题

我通过Terraform在gcp上启动了一个dataproc集群,但是我注意到组件网关仍然显示为禁用,尽管我有自己的脚本来启用它。 software_config {可选组件...

回答 1 投票 0

Dataproc:HDFS上的热数据,Cloud Storage上的冷数据?

[我正在为专业数据工程师学习,我想知道关于Dataproc上的热门数据的“ Google推荐的最佳做法”是什么(假设无需考虑成本)?如果需要考虑成本,那么我...

回答 1 投票 1

我如何将未编译的Spark Scala / spark-shell代码作为Dataproc作业运行?

通常,如果我将Scala用于Spark作业,我将编译一个jarfile并与gcloud一起提交,dataproc作业会提交spark,但是有时对于非常轻量的作业,我可能会使用未编译的Scala代码...

回答 1 投票 0

我如何配置spark-submit(或DataProc)从GitHub包中下载Maven依赖项(jar)?

我正在尝试通过GCP DataProc提交spark-submit,以从GitHub软件包存储库下载maven依赖项。添加spark.jars.repositories = https:// myuser:[email protected]/myorg / ...

回答 1 投票 1

带有PySpark覆盖项目ID的BigQuery

我正在Google Cloud中使用BigQuery和Dataproc。两者都在同一个项目中,我们称之为“ project-123”。我使用Composer(Airflow)运行我的代码。我有一个简单的python脚本,test_script.py,...

回答 1 投票 1

如何在GCP中将jar依赖项添加到dataproc集群?

尤其是如何添加spark-bigquery-connector,以便可以从dataproc的Jupyter Web界面中查询数据?关键链接:-https://github.com/GoogleCloudPlatform/spark-bigquery -...

回答 1 投票 2

如何使用AWS数据管道为Spark应用程序正确设置Google云存储

我正在设置集群步骤,以使用Amazon Data Pipeline运行Spark应用程序。我的工作是从S3读取数据,处理数据并将数据写入Google云存储。对于Google Cloud ...

回答 1 投票 3

如何将Google Dataproc查询的结果存储在变量GCP中

我有一个需求,我需要计算gcloud配置单元表中的记录数,并且需要将此结果存储在变量中。下面是相同的代码:test = $(gcloud dataproc jobs ...

回答 1 投票 2

最新问题
© www.soinside.com 2019 - 2024. All rights reserved.