google-cloud-dataproc 相关问题

Google Cloud Dataproc是Google云端平台上的托管Hadoop MapReduce,Spark,Pig和Hive服务。该服务提供GUI,CLI和HTTP API访问模式,用于部署/管理集群以及将作业提交到集群。

Dataproc覆盖执行程序的内存

我们以前在Hadoop集群上运行带有以下参数的Spark作业:{'conn_id':'spark_default','num_executors':10,'executor_cores':4,4,'executor_memory':'15G','。 。

回答 1 投票 1

Dataproc上的增量Sqoop给出“ util.AppendUtils:无法将文件追加到目标目录;没有这样的目录”

我可以通过hadoop / google dataproc上的sqoop作业运行Postgresql表的完整导出,以导出到google存储桶。但是,当我尝试增量导出时,它会失败。 gcloud dataproc作业...

回答 1 投票 3

使用PySpark的ETL雪花作业在本地而不在Dataproc上工作

我创建了一个火花作业,并且首先在本地对其进行了测试,并且可以完美地工作。但是,将spark作业传递给Dataproc之后,它将返回以下错误:py4j.protocol.Py4JJavaError:...

回答 1 投票 1

如何在GCP中以集群模式运行Spark作业?

在GCP中,我们要在dataproc群集上以群集模式运行spark作业。当前,我们正在使用以下命令gcloud dataproc作业提交spark --cluster xxxx-xxxx-dataproc-cluster01 --...

回答 1 投票 0

Google Spark-BigQuery-Connector如何利用BigQuery Storage API?

根据https://cloud.google.com/dataproc/docs/concepts/connectors/bigquery,连接器使用BigQuery Storage API来使用gRPC读取数据。但是,我在...

回答 1 投票 1

GCP比Mac OS花费更多的时间

这是我的代码的一部分:def get_symbol_wise_csv(df,original_file_path):symbol = df.write.mode(“ append”)。partitionBy(“ SMBL”)。csv('%s /'%(BUCKET_PATH))in Mac for 2个文件夹,占用少于10个...

回答 1 投票 -1

组件网关通过terraform实现dataproc集群的问题

我通过Terraform在gcp上启动了一个dataproc集群,但是我注意到组件网关仍然显示为禁用,尽管我有自己的脚本来启用它。 software_config {可选组件...

回答 1 投票 0

Dataproc:HDFS上的热数据,Cloud Storage上的冷数据?

[我正在为专业数据工程师学习,我想知道关于Dataproc上的热门数据的“ Google推荐的最佳做法”是什么(假设无需考虑成本)?如果需要考虑成本,那么我...

回答 1 投票 1

我如何将未编译的Spark Scala / spark-shell代码作为Dataproc作业运行?

通常,如果我将Scala用于Spark作业,我将编译一个jarfile并与gcloud一起提交,dataproc作业会提交spark,但是有时对于非常轻量的作业,我可能会使用未编译的Scala代码...

回答 1 投票 0

我如何配置spark-submit(或DataProc)从GitHub包中下载Maven依赖项(jar)?

我正在尝试通过GCP DataProc提交spark-submit,以从GitHub软件包存储库下载maven依赖项。添加spark.jars.repositories = https:// myuser:[email protected]/myorg / ...

回答 1 投票 1

带有PySpark覆盖项目ID的BigQuery

我正在Google Cloud中使用BigQuery和Dataproc。两者都在同一个项目中,我们称之为“ project-123”。我使用Composer(Airflow)运行我的代码。我有一个简单的python脚本,test_script.py,...

回答 1 投票 1

如何在GCP中将jar依赖项添加到dataproc集群?

尤其是如何添加spark-bigquery-connector,以便可以从dataproc的Jupyter Web界面中查询数据?关键链接:-https://github.com/GoogleCloudPlatform/spark-bigquery -...

回答 1 投票 2

如何使用AWS数据管道为Spark应用程序正确设置Google云存储

我正在设置集群步骤,以使用Amazon Data Pipeline运行Spark应用程序。我的工作是从S3读取数据,处理数据并将数据写入Google云存储。对于Google Cloud ...

回答 1 投票 3

如何将Google Dataproc查询的结果存储在变量GCP中

我有一个需求,我需要计算gcloud配置单元表中的记录数,并且需要将此结果存储在变量中。下面是相同的代码:test = $(gcloud dataproc jobs ...

回答 1 投票 2

我可以将Cloud Dataproc与外部Hive Metastore一起使用吗?

默认情况下,Cloud Dataproc在Dataproc集群本地运行一个Hive Metastore。这意味着:Metastore是带有集群的临时集群。使用单个...

回答 1 投票 0

删除数据融合实例后如何保存管道

即使在删除数据融合实例之后,也可以保留管道吗?我们计划每天在EOD处删除实例。

回答 1 投票 0

我可以在Cloud Dataproc中使用n2或n2d机器类型吗?

我想将Cloud Dataproc与n2和非n1的其他计算机类型一起使用。当我查看Dataproc定价和Google Cloud Console时,似乎只能使用n1种计算机类型。是否有...

回答 1 投票 3

如何在创建Dataproc集群时将Bash脚本作为初始化操作运行?

我希望Dataproc群集下载我创建的自定义库,该库不能通过pip安装,因此它需要用户从云源存储库中克隆它,然后执行sudo python setup.py ...

回答 1 投票 2

将Google Dataproc查询的输出重定向到文本文件中

我有一个需要在文本文件中输出Google Dataproc的要求。例如,我有以下查询:gcloud dataproc作业提交配置单元--cluster = $ CLUSTER --region = $ REGION \ --execute =“ ...

回答 1 投票 1

我的Dataproc群集(版本-1.4.0-debian9)HA模式不起作用

[我使用具有所有必需的HA配置的映像1.4.0-debian9创建了一个Dataproc集群,但是看起来Active RM无法与备用RM同步,因此错过了诸如nodelabel等信息...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.