google-cloud-dataproc 相关问题

Google Cloud Dataproc是Google云端平台上的托管Hadoop MapReduce，Spark，Pig和Hive服务。该服务提供GUI，CLI和HTTP API访问模式，用于部署/管理集群以及将作业提交到集群。

GCP Dataproc的德鲁伊可用alpha。如何加载细分？

描述druid支持的dataproc页面没有关于如何将数据加载到集群的章节。我一直在尝试使用GC Storage进行此操作，但不知道如何为它建立有效的规范。我想...

google-cloud-platform google-cloud-dataproc druid

回答 1 投票 2

如何获取使用Dataproc工作流模板提交的jobId

我一直在使用Dataproc工作流模板用Python编写的气流运营商（DataprocWorkflowTemplateInstantiateInlineOperator）的协助下提交了蜂巢工作。一旦作业被提交了一些...

python-3.x google-cloud-platform airflow google-cloud-dataproc google-cloud-composer

回答 1 投票 1

火花2.4连接到从容器dataproc：的java.net.UnknownHostException

我在从码头工人容器运行在kubernetes连接星火2.4到dataproc集群（星火2.4）的问题。我得到“的java.net.UnknownHostException”本地kubernetes ...

apache-spark google-kubernetes-engine google-cloud-dataproc

回答 1 投票 1

在谷歌云计算，集群或没有集群的Apache星火

我想使用Apache星火操作在谷歌云数据量巨大。我也跟着起旋云Dataproc集群5个节点的文档。一切都完美的作品。但我的...

apache-spark google-cloud-platform google-cloud-storage google-cloud-dataproc

回答 2 投票 0

谷歌云Dataproc OOM问题

我碰到OOM问题，当执行星火集群（Dataproc）上的代码。环境：2节点的群集，每个节点具有的存储器6G。测试文件的大小为20GB。这里是我的代码：从__future__进口...

python google-cloud-platform google-cloud-dataproc

回答 2 投票 3

如何将Pre Prem Hadoop迁移到GCP

我正在尝试将我们组织的hadoop作业迁移到GCP ......我对GCP数据流和数据处理之间感到困惑...我想重新使用我们已经创建的Hadoop作业，并尽量减少对...的管理

hadoop google-cloud-platform google-cloud-dataflow google-cloud-dataproc

回答 2 投票 0

为什么使用saveAsTextFile时，在Google Dataproc中运行的Spark会在外部存储（GCS）上存储临时文件而不是本地磁盘或HDFS？

我运行了以下PySpark代码：来自pyspark import SparkContext sc = SparkContext（）data = sc.textFile（'gs：// bucket-name / input_blob_path'）sorted_data = data.sortBy（lambda x：sort_criteria（...

apache-spark pyspark google-cloud-dataproc

回答 2 投票 1

GCP计算引擎网络出口攻击

我在gcp dataproc vm上观察到非常高的出口流量，其成本约为1000美元。计算引擎网络从美洲到美洲的Internet出口。我跟进谷歌的支持，他们......

google-cloud-platform google-cloud-dataproc

回答 1 投票 1

设置fs.defaultFS属性时无法创建Dataproc集群？

这已经是上一篇文章中讨论的对象，但是，我不相信答案，因为Google文档指定可以创建一个集合设置fs.defaultFS ...

apache-spark hadoop google-cloud-dataproc

回答 1 投票 0

使用Gcloud Composer DAG运行Spark作业的困难

我正在玩Gcloud Composer，尝试创建一个创建DataProc集群的DAG，运行一个简单的Spark作业，然后拆除集群。我正在尝试运行Spark PI示例作业。一世 ...

apache-spark airflow google-cloud-dataproc google-cloud-composer

回答 1 投票 0

如何以编程方式检测他的代码是否在Google Cloud上运行？

我正在尝试调整当前在内部部署的Hadoop集群上运行的Spark作业。我想修改它，以便它继续支持本地运行并在Google云上运行。我刚在想 ...

apache-spark google-cloud-platform google-cloud-dataproc

回答 2 投票 1

使用Google CloudDataproc时是否仍需要微调spark配置参数？

详细说明：通常，在编写spark作业时，需要为不同的spark配置指定特定值，以便以最佳方式使用群集资源。我们能做到这一点 ...

apache-spark google-cloud-dataproc

回答 2 投票 1

如何基于预览版本创建自定义数据图像

我试图在GCP中创建自定义Dataproc图像。它适用于稳定版本的基本图像（例如1.3.24）。但是，如果我指定一个预览的基本图像（对于...

google-cloud-platform google-cloud-dataproc

回答 3 投票 0

如何以编程方式在Dataproc集群上运行Hadoop utils？

我有：App Engine应用程序（Java / Python）Dataproc集群我想以编程方式在主节点（hadoop distcp）上运行其中一个Hadoop工具。最好的方法是什么？到目前为止我有......

google-app-engine google-cloud-platform google-cloud-dataproc

回答 1 投票 4

在Google Dataproc Java API中使用beta功能

我正在使用Google Dataproc以及管理群集配置和提交作业的Java应用程序。最近我注意到一个有趣的beta功能“Scheduled Deletion”。我现在......

java google-cloud-dataproc

回答 1 投票 1

在使用pyspark提交作业时，如何使用--files参数访问静态文件上传？

例如，我有一个文件夹：/ - test.py - test.yml并且该作业被提交到spark集群：gcloud beta dataproc jobs在test.py中提交pyspark --files = test.yml“test.py” ，我想要 ...

python apache-spark pyspark google-cloud-dataproc

回答 3 投票 9

Dataproc上的Sqoop无法将数据导出为Avro格式

我想使用Sqoop从Postgres数据库中提取数据，我使用Google Dataproc来执行Sqoop。但是，当我提交Sqoop作业时出现错误。我使用以下命令：创建集群...

postgresql sqoop google-cloud-dataproc

回答 1 投票 3

无法在群集中使用SSH Dataproc Master

我一直在尝试使用jupyter存储库的初始化脚本在Dataproc中创建一个集群。但是当我尝试ssh到master时，为了能够访问运行这个的Jupyter接口...

ssh google-cloud-platform jupyter-notebook gcloud google-cloud-dataproc

回答 1 投票 1

有没有办法在Google DataProc作业失败时通过电子邮件发送该作业状态？

通过使用Google Composer和DataProc，我被要求找到一种方法，以最少的点击次数向Ops用户提供失败作业的详细信息。我在DataProc上找到了这个屏幕......

google-cloud-platform google-cloud-dataproc

回答 2 投票 1

完成所有作业后自动关闭Google Dataproc群集

所有作业完成后，如何以编程方式自动关闭Google Dataproc群集？ Dataproc提供创建，监控和管理。但似乎我无法找到如何......

google-cloud-platform google-cloud-dataproc

回答 6 投票 5

google-cloud-dataproc 相关问题

最新问题