google-cloud-dataproc 相关问题

Google Cloud Dataproc是Google云端平台上的托管Hadoop MapReduce,Spark,Pig和Hive服务。该服务提供GUI,CLI和HTTP API访问模式,用于部署/管理集群以及将作业提交到集群。

Cloud Dataproc使用BigQuery Connector读取BigQuery Views

是否可以让Cloud Dataproc使用BigQuery Connector读取BigQuery Views?此外,对于用例来说,在Apache Spark(Dataproc)和一些工作负载中运行一些工作负载......

回答 1 投票 0

由于无法在GCS中重命名错误,Spark Dataproc作业失败

我有一个火花作业,由于跟随错误而失败。 org.apache.spark.SparkException:作业因阶段失败而中止:阶段34338.0中的任务0失败4次,最近失败:...

回答 1 投票 1

如何在Cloud Dataproc上安装Apache Spark的自定义版本

出于这样或那样的原因,我想安装一个不同于Google Cloud Dataproc上可用的Apache Spark版本。如何安装Spark的自定义版本,同时还要维护......

回答 2 投票 2

GCP Hadoop数据仓库?

我知道Google BigQuery是一个数据仓库,但Dataproc,Big Table,Pub / Sub被认为是数据仓库吗?这会让Hadoop成为数据仓库吗?

回答 2 投票 -1

GCP Dataproc:直接使用Spark over Yarn Cluster

我正在努力减少代码中的更改,所以我想知道是否有办法从我的个人PC / VM提交火花流工作,如下所示:spark-submit --class path.to.your.Class - - 主纱 - ...

回答 1 投票 1

如何在Google Cloud Platform中的任何给定时间检查正在使用的Dataproc群集的数量?

如何在Google Cloud Platform中的任何给定时间检查正在使用的Dataproc群集的数量?如果是,我们还需要在GCP中可视化的方法。

回答 2 投票 0

获取在临时Dataproc集群上创建的外部表的列表

我在Dataproc集群上创建了几个表。该集群后来被销毁。但是,我使用外部命令创建了表。如何获取旧版中创建的所有表的列表...

回答 1 投票 0

使用“clusters.create”API初始化集群时指定连接器版本

我在Python中使用clusters.create API在Dataproc中创建集群。 {“projectId”:“my-project-id”,“clusterName”:“example-cluster”,“config”:{“configBucket”:“”,“gceClusterConfig”:{...

回答 1 投票 0

通过DataProc UI提交Spark Streaming作业

如何在DataProc UI上指定多个jar文件(我的意思是在Web浏览器上)。例如,从命令行我可以启动作业:export SPARK_MASTER = local [8] export DEPENDENCIES = / home / xxx / ....

回答 1 投票 0

在Google Cloud Dataproc中按顺序运行提交的作业

我使用n1-standard-4 VM为主人和工人创建了带有2名工作人员的Google Dataproc集群。我想在给定集群上提交作业,所有作业应按顺序运行(如在AWS EMR上),即...

回答 1 投票 0

Dataproc更改工作人员大小

我的工作(ML工作)每个工人需要超过15GB的RAM。如何更改工人的机器类型?目前:n1-standard-4(4个vCPU,15.0 GB内存)我宁愿保持我的集群不...

回答 2 投票 0

从.egg而不是.py运行PySpark作业

我正在尝试使用Dataproc运行PySpark作业。与所有示例相比,唯一不同的是我想从.egg而不是.py文件提交作业。为了提交......

回答 1 投票 1

对于具有受限用户访问权限的GCS的多用户,无法使用Dataproc群集

@ dennis-huo在Google Cloud数据中心中使用非默认服务帐户为了解决上述问题,我想为多用户设置数据中心群集。自Dataproc的计算引擎......

回答 1 投票 3

如何在谷歌云平台的项目之间共享资源(计算引擎)

我正在尝试创建原型,我可以在项目中共享资源以在google云平台中运行工作动机:假设有两个项目:项目A和项目B. ...

回答 1 投票 0

如何知道dataproc初始化操作何时完成

我需要运行安装了BigQuery和Cloud Storage连接器的Dataproc集群。我使用了这个脚本的一个变体(因为我无法访问常规脚本中使用的存储桶),...

回答 1 投票 0

Presto-CLI java.net.SocketException:GCP中的连接被拒绝

我使用带有可选组件presto的测试版gcloud创建了数据集群。 gcloud beta dataproc clusters创建presto-test --optional-components = PRESTO --image-version = 1.3-deb9 ...

回答 1 投票 2

如何在GCP中列出全局数据中心集群?

我正在尝试获取所有全局数据集群的列表,但似乎无法找到这样做的方法。 clusters.list API仅返回v1beta2 / projects / {projectId} / regions / {...的非全局集群。

回答 1 投票 1

有些YARN工作节点没有加入集群,而我在Dataproc上创建了spark集群

我在dataproc上创建了一个带有1个主节点和6个工作节点的火花簇。在GCP控制台上,我可以看到6个虚拟机正在运行,但我只在YARN节点管理器UI上看到5个节点。当我进入那台机器时......

回答 1 投票 1

dataproc cluster update(resize)命令未完成

我们有一个数据集群,我们为大型作业动态调整大小。我提交了一个群集调整大小请求,以便将我们的群集从10名工作人员,3名先发制人员减少到原来的规模(1m,2名工作人员),但......

回答 1 投票 1

我可以为数据通路群集的主节点分配静态内部IP地址吗?

我想为数据通路群集主节点分配一个静态内部IP地址。从谷歌云官方文档我知道如何对单个虚拟机这样做。但有谁知道如何分配保留内部...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.