google-cloud-dataproc 相关问题

Google Cloud Dataproc是Google云端平台上的托管Hadoop MapReduce,Spark,Pig和Hive服务。该服务提供GUI,CLI和HTTP API访问模式,用于部署/管理集群以及将作业提交到集群。

在GCP Dataproc上的Keras模型上使用分布式Tensorflow

我对GCP Dataproc上的云计算完全陌生。我在创建群集时安装了TonY(Tensorflow on Yarn),以便能够在其上运行tensorflow。我被困在......

回答 1 投票 2

Dataproc尝试通过JDBC连接到Postgres,缺少权限

在此先感谢...我想使用JDBC API连接/写入以编程方式使用Cloud SQL运行的Postgres SQL实例。我用过以下罐子:postgresql postgres-socket-factory ...

回答 1 投票 1

Spark UI显示格式错误(CSS损坏)

我是第一次使用Apache Spark。我运行我的应用程序,当我访问localhost:4040时,我得到了图片中显示的内容。我发现也许设置spark.ui.enabled true可以帮助...

回答 3 投票 2

如何强制python版本在从GCP数据集群集中旋转的datalab实例中同步?

我使用图像1.2在GCP中创建了一个Dataproc集群。我想从Datalab笔记本运行Spark。如果我保持Datalab笔记本运行Python 2.7作为其内核,但是如果我想...

回答 1 投票 1

Dataproc图像版本1.4-debian9(预览版)缺少AWS S3 jars(org.apache.hadoop.fs.s3a.S3AFileSystem)

使用图像版本1.3-debian 9显示罐子可用(附截图)。使用图像版本预览(1.4-debian 9)给出以下错误消息(附带的屏幕截图):Py4JJavaError:...

回答 1 投票 2

为什么我不能创建安装了Jupyter和DataLab的Google DataProc群集?

我想在DataProc中创建一个集群,同时安装了Jupyter和DataLab(我知道它们非常相似,但团队成员有不同的偏好)。我可以用它们中的任何一个创建集群:...

回答 1 投票 1

一段时间后无法在Google DataProc上启动DataLab

我在安装了Datalab的DataProc上创建了一个集群。我使用以下命令访问dataLab:export ZONE = us-central1-b; export CLUSTER_NAME = test; gcloud compute ssh $ {CLUSTER_NAME} -m --...

回答 1 投票 1

Dataproc通过Python客户端提交Hadoop作业

我正在尝试使用Dataproc API,尝试将gcloud命令转换为API,但我在文档中找不到一个好的例子。 %pip install google-cloud-dataproc我找到的唯一好样本是......

回答 1 投票 1

我们如何在Google Cloud Platform中可视化Dataproc作业状态?

我们如何在Google Cloud Platform中可视化(通过仪表板)Dataproc作业状态?我们想要检查作业是否正在运行,以及它们的状态,如运行,延迟,阻止。在上面 ...

回答 1 投票 0

s3-dist-cp group使用hadoop distcp命令在Dataproc上等效

在EMR上,我使用s3-dist-cp --groupBy,以便将文件夹中的随机fileName命名为一个名称,我希望在S3中将其重命名为:s3-dist-cp --groupBy =' 。*(folder_in_hdfs)。*' - src = ...

回答 1 投票 1

如何让Google Dataproc master保持运行?

我在Dataproc上创建了一个集群,效果很好。但是,在群集空闲一段时间后(约90分钟),主节点将自动停止。这发生在我创建的每个集群中。我知道了 ...

回答 1 投票 1

如何在Google Dataproc集群中安装python包

在创建并运行群集后,是否可以在Google Dataproc群集中安装python包?我试图在主命令行中使用“pip install xxxxxxx”,但它似乎没有......

回答 1 投票 5

Spark on Dataproc:每个CPU可以运行更多的执行程序吗?

我在Google Cloud Dataproc上运行Spark 1.6.2(所以Dataproc版本1.0)。我的集群由一些n1-standard-8工作者组成,我每个核心运行一个执行程序(spark.executor.cores = 1)。一世 ...

回答 1 投票 3

Flink检查点到Google云端存储

我正在尝试在GCS中配置flink作业的检查点。如果我在本地运行测试作业(没有docker和任何集群设置),一切正常,但如果我使用docker -...运行它会失败并显示错误。

回答 2 投票 0

数据交换如何与谷歌云存储配合使用?

我正在寻找谷歌数据交换机与GCS的工作。我正在使用dataproc的pyspark。数据是从GCS读取和写入的。但是无法为我的用例找出最佳的机器类型。问题1)......

回答 1 投票 2

org.apache.spark.SparkException:作业因阶段失败而中止:阶段11.0中的任务98失败4次

我使用Google Cloud Dataproc做火花工作,我的编辑是Zepplin。我试图将json数据写入gcp bucket。它在我尝试10MB文件之前成功了。但是10GB文件失败了。我......

回答 1 投票 2

将pandas数据框保存为csv到gcloud存储桶

从pyspark导入SparkContext,来自pyspark.sql的SparkConf导入SparkSession导入gc导入pandas作为pd import datetime import numpy as np import sys APP_NAME =“DataFrameToCSV”spark = ...

回答 2 投票 2

与Dataproc + Datalab +源代码存储库集成

有人能够集成Dataproc,Datalab和源代码库吗?正如我们许多人已经看到,当您调用init操作来安装datalab时,它不会创建源代码仓库。我是 ...

回答 1 投票 2

如何在GCP中执行数据沿袭?

当我们通过GCP云存储实现数据湖,以及使用Dataproc,Dataflow等云服务进行数据处理时,我们如何在GCP中生成数据沿袭报告。谢谢。

回答 2 投票 4

使用GCP Composer运行Hive查询

所以我打算使用GCP Composer来运行一些Hive作业。使用Hive和Dataproc是最好的方法吗?应该在哪里存储数据? Dataproc可以从谷歌读取数据......

回答 2 投票 2

© www.soinside.com 2019 - 2024. All rights reserved.