google-cloud-dataproc 相关问题

Google Cloud Dataproc是Google云端平台上的托管Hadoop MapReduce,Spark,Pig和Hive服务。该服务提供GUI,CLI和HTTP API访问模式,用于部署/管理集群以及将作业提交到集群。

GCP Dataproc的德鲁伊可用alpha。如何加载细分?

描述druid支持的dataproc页面没有关于如何将数据加载到集群的章节。我一直在尝试使用GC Storage进行此操作,但不知道如何为它建立有效的规范。我想...

回答 1 投票 2

如何获取使用Dataproc工作流模板提交的jobId

我一直在使用Dataproc工作流模板用Python编写的气流运营商(DataprocWorkflowTemplateInstantiateInlineOperator)的协助下提交了蜂巢工作。一旦作业被提交了一些...

回答 1 投票 1

火花2.4连接到从容器dataproc:的java.net.UnknownHostException

我在从码头工人容器运行在kubernetes连接星火2.4到dataproc集群(星火2.4)的问题。我得到“的java.net.UnknownHostException”本地kubernetes ...

回答 1 投票 1

在谷歌云计算,集群或没有集群的Apache星火

我想使用Apache星火操作在谷歌云数据量巨大。我也跟着起旋云Dataproc集群5个节点的文档。一切都完美的作品。但我的...

回答 2 投票 0

谷歌云Dataproc OOM问题

我碰到OOM问题,当执行星火集群(Dataproc)上的代码。环境:2节点的群集,每个节点具有的存储器6G。测试文件的大小为20GB。这里是我的代码:从__future__进口...

回答 2 投票 3

如何将Pre Prem Hadoop迁移到GCP

我正在尝试将我们组织的hadoop作业迁移到GCP ......我对GCP数据流和数据处理之间感到困惑...我想重新使用我们已经创建的Hadoop作业,并尽量减少对...的管理

回答 2 投票 0

为什么使用saveAsTextFile时,在Google Dataproc中运行的Spark会在外部存储(GCS)上存储临时文件而不是本地磁盘或HDFS?

我运行了以下PySpark代码:来自pyspark import SparkContext sc = SparkContext()data = sc.textFile('gs:// bucket-name / input_blob_path')sorted_data = data.sortBy(lambda x:sort_criteria(...

回答 2 投票 1

GCP计算引擎网络出口攻击

我在gcp dataproc vm上观察到非常高的出口流量,其成本约为1000美元。计算引擎网络从美洲到美洲的Internet出口。我跟进谷歌的支持,他们......

回答 1 投票 1

设置fs.defaultFS属性时无法创建Dataproc集群?

这已经是上一篇文章中讨论的对象,但是,我不相信答案,因为Google文档指定可以创建一个集合设置fs.defaultFS ...

回答 1 投票 0

使用Gcloud Composer DAG运行Spark作业的困难

我正在玩Gcloud Composer,尝试创建一个创建DataProc集群的DAG,运行一个简单的Spark作业,然后拆除集群。我正在尝试运行Spark PI示例作业。一世 ...

回答 1 投票 0

如何以编程方式检测他的代码是否在Google Cloud上运行?

我正在尝试调整当前在内部部署的Hadoop集群上运行的Spark作业。我想修改它,以便它继续支持本地运行并在Google云上运行。我刚在想 ...

回答 2 投票 1

使用Google CloudDataproc时是否仍需要微调spark配置参数?

详细说明:通常,在编写spark作业时,需要为不同的spark配置指定特定值,以便以最佳方式使用群集资源。我们能做到这一点 ...

回答 2 投票 1

如何基于预览版本创建自定义数据图像

我试图在GCP中创建自定义Dataproc图像。它适用于稳定版本的基本图像(例如1.3.24)。但是,如果我指定一个预览的基本图像(对于...

回答 3 投票 0

如何以编程方式在Dataproc集群上运行Hadoop utils?

我有:App Engine应用程序(Java / Python)Dataproc集群我想以编程方式在主节点(hadoop distcp)上运行其中一个Hadoop工具。最好的方法是什么?到目前为止我有......

回答 1 投票 4

在Google Dataproc Java API中使用beta功能

我正在使用Google Dataproc以及管理群集配置和提交作业的Java应用程序。最近我注意到一个有趣的beta功能“Scheduled Deletion”。我现在......

回答 1 投票 1

在使用pyspark提交作业时,如何使用--files参数访问静态文件上传?

例如,我有一个文件夹:/ - test.py - test.yml并且该作业被提交到spark集群:gcloud beta dataproc jobs在test.py中提交pyspark --files = test.yml“test.py” , 我想要 ...

回答 3 投票 9

Dataproc上的Sqoop无法将数据导出为Avro格式

我想使用Sqoop从Postgres数据库中提取数据,我使用Google Dataproc来执行Sqoop。但是,当我提交Sqoop作业时出现错误。我使用以下命令:创建集群...

回答 1 投票 3

无法在群集中使用SSH Dataproc Master

我一直在尝试使用jupyter存储库的初始化脚本在Dataproc中创建一个集群。但是当我尝试ssh到master时,为了能够访问运行这个的Jupyter接口...

回答 1 投票 1

有没有办法在Google DataProc作业失败时通过电子邮件发送该作业状态?

通过使用Google Composer和DataProc,我被要求找到一种方法,以最少的点击次数向Ops用户提供失败作业的详细信息。我在DataProc上找到了这个屏幕......

回答 2 投票 1

完成所有作业后自动关闭Google Dataproc群集

所有作业完成后,如何以编程方式自动关闭Google Dataproc群集? Dataproc提供创建,监控和管理。但似乎我无法找到如何......

回答 6 投票 5

© www.soinside.com 2019 - 2024. All rights reserved.