Google Cloud Dataproc是Google云端平台上的托管Hadoop MapReduce,Spark,Pig和Hive服务。该服务提供GUI,CLI和HTTP API访问模式,用于部署/管理集群以及将作业提交到集群。
在GCP Dataproc上的Keras模型上使用分布式Tensorflow
我对GCP Dataproc上的云计算完全陌生。我在创建群集时安装了TonY(Tensorflow on Yarn),以便能够在其上运行tensorflow。我被困在......
Dataproc尝试通过JDBC连接到Postgres,缺少权限
在此先感谢...我想使用JDBC API连接/写入以编程方式使用Cloud SQL运行的Postgres SQL实例。我用过以下罐子:postgresql postgres-socket-factory ...
我是第一次使用Apache Spark。我运行我的应用程序,当我访问localhost:4040时,我得到了图片中显示的内容。我发现也许设置spark.ui.enabled true可以帮助...
如何强制python版本在从GCP数据集群集中旋转的datalab实例中同步?
我使用图像1.2在GCP中创建了一个Dataproc集群。我想从Datalab笔记本运行Spark。如果我保持Datalab笔记本运行Python 2.7作为其内核,但是如果我想...
Dataproc图像版本1.4-debian9(预览版)缺少AWS S3 jars(org.apache.hadoop.fs.s3a.S3AFileSystem)
使用图像版本1.3-debian 9显示罐子可用(附截图)。使用图像版本预览(1.4-debian 9)给出以下错误消息(附带的屏幕截图):Py4JJavaError:...
为什么我不能创建安装了Jupyter和DataLab的Google DataProc群集?
我想在DataProc中创建一个集群,同时安装了Jupyter和DataLab(我知道它们非常相似,但团队成员有不同的偏好)。我可以用它们中的任何一个创建集群:...
一段时间后无法在Google DataProc上启动DataLab
我在安装了Datalab的DataProc上创建了一个集群。我使用以下命令访问dataLab:export ZONE = us-central1-b; export CLUSTER_NAME = test; gcloud compute ssh $ {CLUSTER_NAME} -m --...
我正在尝试使用Dataproc API,尝试将gcloud命令转换为API,但我在文档中找不到一个好的例子。 %pip install google-cloud-dataproc我找到的唯一好样本是......
我们如何在Google Cloud Platform中可视化Dataproc作业状态?
我们如何在Google Cloud Platform中可视化(通过仪表板)Dataproc作业状态?我们想要检查作业是否正在运行,以及它们的状态,如运行,延迟,阻止。在上面 ...
s3-dist-cp group使用hadoop distcp命令在Dataproc上等效
在EMR上,我使用s3-dist-cp --groupBy,以便将文件夹中的随机fileName命名为一个名称,我希望在S3中将其重命名为:s3-dist-cp --groupBy =' 。*(folder_in_hdfs)。*' - src = ...
如何让Google Dataproc master保持运行?
我在Dataproc上创建了一个集群,效果很好。但是,在群集空闲一段时间后(约90分钟),主节点将自动停止。这发生在我创建的每个集群中。我知道了 ...
如何在Google Dataproc集群中安装python包
在创建并运行群集后,是否可以在Google Dataproc群集中安装python包?我试图在主命令行中使用“pip install xxxxxxx”,但它似乎没有......
Spark on Dataproc:每个CPU可以运行更多的执行程序吗?
我在Google Cloud Dataproc上运行Spark 1.6.2(所以Dataproc版本1.0)。我的集群由一些n1-standard-8工作者组成,我每个核心运行一个执行程序(spark.executor.cores = 1)。一世 ...
我正在尝试在GCS中配置flink作业的检查点。如果我在本地运行测试作业(没有docker和任何集群设置),一切正常,但如果我使用docker -...运行它会失败并显示错误。
我正在寻找谷歌数据交换机与GCS的工作。我正在使用dataproc的pyspark。数据是从GCS读取和写入的。但是无法为我的用例找出最佳的机器类型。问题1)......
org.apache.spark.SparkException:作业因阶段失败而中止:阶段11.0中的任务98失败4次
我使用Google Cloud Dataproc做火花工作,我的编辑是Zepplin。我试图将json数据写入gcp bucket。它在我尝试10MB文件之前成功了。但是10GB文件失败了。我......
从pyspark导入SparkContext,来自pyspark.sql的SparkConf导入SparkSession导入gc导入pandas作为pd import datetime import numpy as np import sys APP_NAME =“DataFrameToCSV”spark = ...
有人能够集成Dataproc,Datalab和源代码库吗?正如我们许多人已经看到,当您调用init操作来安装datalab时,它不会创建源代码仓库。我是 ...
当我们通过GCP云存储实现数据湖,以及使用Dataproc,Dataflow等云服务进行数据处理时,我们如何在GCP中生成数据沿袭报告。谢谢。
所以我打算使用GCP Composer来运行一些Hive作业。使用Hive和Dataproc是最好的方法吗?应该在哪里存储数据? Dataproc可以从谷歌读取数据......