google-cloud-dataproc 相关问题

Google Cloud Dataproc是Google云端平台上的托管Hadoop MapReduce,Spark,Pig和Hive服务。该服务提供GUI,CLI和HTTP API访问模式,用于部署/管理集群以及将作业提交到集群。

Pyspark加入Dataproc失败

我试图在Dataproc集群上运行一些python pyspark脚本但是因为以下错误而失败:文件“/usr/lib/spark/python/lib/pyspark.zip/pyspark/sql/dataframe.py”,第815行,在连接中如果......

回答 1 投票 0

YARN集群模式减少了执行程序实例的数量

我通过以下方式配置Google Cloud Dataproc集群:gcloud dataproc集群创建spark --async --image-version 1.2 \ --master-machine-type n1-standard-1 --master-boot-disk-size ...

回答 1 投票 0

在Google Cloud Dataproc环境中使用Hadoop流运行python map reduce job时出错

我想使用hadoop流方法在Google Cloud Dataproc中运行python map reduce作业。我的地图缩小python脚本,输入文件和作业结果输出位于Google云端存储中。我试过了 ...

回答 1 投票 1

将数据从Google Dataproc中的hive表移动到BigQuery

我们正在使用Google Dataproc进行数据转换,我们所有的数据都驻留在Dataproc Hive表中。如何将此数据传输/移动到BigQuery。

回答 1 投票 0

Google Dataproc可抢占工作人员的初始化操作

我目前正在使用具有固定数量工作人员的Dataproc群集。每个worker都有一个非平凡的初始化操作,需要在worker上安装一些特定的库。最近,我们......

回答 1 投票 1

PySpark worker在安装时无法导入包

我最近在gcloud DataProc上建立了一个集群(1个主服务器和2个从服务器)。我设法有一个带有PySpark内核的jupyter笔记本界面。只要我的工人不这样做,一切都有效......

回答 1 投票 1

Google Cloud Logging中的Dataproc Spark作业输出

有没有办法将Dataproc Spark作业的输出发送到Google Cloud日志记录?如Dataproc文档中所述,作业驱动程序(Spark作业的主控)的输出可用...

回答 2 投票 16

将多个系统属性传递给Google Dataproc群集作业

我正在尝试在Dataproc集群上提交spark工作。该作业需要多个系统属性。我能够通过如下一个:gcloud dataproc jobs提交spark \ ...

回答 1 投票 1

将大数据集读取到Jupyter Notebook和Manipulate

我正在尝试将数据从BigQuery加载到Jupyter Notebook,在那里我将进行一些操作和绘图。数据集是2500万行,有10列,绝对超过了我的机器......

回答 1 投票 0

在Apache Spark中使用Bigquery Connector时如何设置分区数?

我正在阅读Google Cloud Dataproc和Apache Spark的文档,我无法弄清楚在使用Bigquery连接器时如何手动设置分区数。 ...

回答 1 投票 0

Google Storage API中的死锁

我在Dataproc上运行一个spark作业,它从一个桶中读取大量文件并将它们合并到一个大文件中。我通过着色使用google-api-services-storage 1.29.0。到现在为止它工作得很好,......

回答 1 投票 3

无法在Google Cloud Dataproc上启动Apache Flink 1.7

我使用Hadoop 2.9.2启动了Dataproc集群,下载了Flink 1.7.2并尝试使用以下命令启动它:./ bin / yarn-session.sh -n 2此操作失败并显示以下错误消息:...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.