google-cloud-dataproc 相关问题

Google Cloud Dataproc是Google云端平台上的托管Hadoop MapReduce,Spark,Pig和Hive服务。该服务提供GUI,CLI和HTTP API访问模式,用于部署/管理集群以及将作业提交到集群。

将自定义job_id提供给Google Dataproc群集以运行pig / hive / spark作业

是否有任何标志可用于为数据业务作业提供自定义job_id。我正在使用此命令来运行猪工作。 gcloud dataproc工作提交pig --cluster my_cluster --file my_queries.pig我用...

回答 2 投票 0

将关闭脚本添加到Dataproc实例

我正在通过REST API(ZEPPELIN类型)创建Dataproc集群。在关机之前我想将一些设置复制到GS(例如Interpreter实例),然后在启动后加载它。 ...

回答 1 投票 0

用于GCP Dataproc的cloud-sql-proxy失败,nc:连接到localhost端口3306(tcp)失败:连接被拒绝

我使用Terraform创建一个使用GCP cloudsql实例作为hivemetastore的数据集群,terrafrm项目创建集群及其所有先决条件(网络,服务帐户,......

回答 2 投票 1

尝试从本地Airflow运行DataProcSparkOperator任务时出现HttpError 400

我正在本地安装的Airflow上测试我曾经在Google Composer上运行的DAG,没有错误。 DAG旋转了一个Google Dataproc集群,运行一个Spark作业(位于...上的JAR文件)

回答 1 投票 1

如何使用Python API激活Dataproc集群的计划删除?

对于手动创建Dataproc群集的计划删除,我可以使用下一个参数--max-idle = 30m。但是如何使用Python API激活计划删除?我应该检查哪些提示?

回答 2 投票 1

可以从本地数据库获取GCP Dataproc sqoop数据(或运行其他作业)吗?

GCP Dataproc sqoop可以从本地数据库导入数据到GCP存储(没有GCP VPC)吗?我们有一个远程Oracle数据库通过VPN隧道连接到我们的本地网络,我们使用Hadoop集群来...

回答 1 投票 0

GCP - GKE与Dataproc的火花

我们的组织最近将其基础架构从aws迁移到了谷歌云计算,我认为数据集群是运行现有火花作业的一个很好的解决方案。但是当谈到......

回答 2 投票 1

使用--properties更新fs.defaltFS时,数据加载创建失败

我用defaultFS创建了一个dataproc作为hdfs.that工作得很好。但是每当我尝试将fs.defaultFS更新为'gs'时,dataproc仪表板显示错误“无法启动Master,数量不足......

回答 1 投票 0

通过Airflow提交给Dataproc的失败的Hive作业的日志链接

我已经使用Airflow的DataprocWorkflowTemplateInstantiateInlineOperator向Dataproc集群提交了一个Hive作业。当googlecloud-> dataproc-> jobs中的某些作业失败时,我可以看到指向日志的链接...

回答 1 投票 2

dataproc重命名由GCS文件夹中的spark写入的文件

我正在使用Dataproc使用Scala实现spark作业。我的火花工作的目的是读取GCS中的数据进行一些转换,然后在GCS下写入结果数据。我们从spark获得的文件......

回答 1 投票 -2

使用Flink REPL中的Google存储空间

我正在尝试将谷歌云存储中的csv文件读取到Flink REPL。由于我对Flink不是很熟练,所以我更喜欢在REPL中工作,这样我就可以一次解决一个错误,而不是......

回答 1 投票 1

数据采集 动态与静态分配中的Spark作业

我有一个Dataproc集群:master - 6cores | 32g工人{0-7} - 6个芯片| 32g最大分配:内存:24576,vCores:6有两个火花流工作提交,一个接一个,首先,...

回答 2 投票 1

Dataproc spark job无法从bigtable扫描记录

我们正在使用newAPIHadoopRDD扫描bigtable并在Rdd中添加记录。 Rdd使用newAPIHadoopRDD填充较小的(比如少于100K记录)bigtable。但是,它无法加载......

回答 1 投票 0

如何在Spark jar中动态替换typesafe include语句

此方法替换了资源目录中放置的文件中的typsafe include文件路径。它在本地工作但在GCP数据交换器中的jar中运行时失败get getSafeConfig(conf:DatalakeConfig):...

回答 1 投票 1

Dataproc主节点配置

我想知道火花的主节点应该有多好。(机器类型)我看到人们谈论工作节点和执行器核心/实例,但找不到任何关于主节点的建议。一世 ...

回答 1 投票 0

在数据帧上使用partitionBy时对数据跳线的警告

我正在尝试使用dataproc上的pyspark将数据帧内容写入谷歌云存储。虽然写入成功,但我在下面粘贴的日志中有很多警告消息....

回答 3 投票 2

spark读取文件扩展名

我编写了以下shell脚本以配置yarn调度程序,但这不能正常工作 - 当我将此脚本设置为输入参数时,Dataproc集群的创建失败。你呢 ...

回答 1 投票 1

GCP数据业务服务帐户not_found

创建Dataproc集群时,我有以下错误消息:错误:(gcloud.dataproc.clusters.create)NOT_FOUND:找不到服务帐户:'[PROJECT_NUMBER] -compute @ developer ....

回答 1 投票 1

Google Cloud DataProc是否提供具有默认JVM和YARN设置的网页?

作为AWS Elastic-Map-Reduce(EMR)服务的Apache Hadoop的前用户,我习惯于从静态页面[1]获取有关各种大小的VM的默认部署设置的信息。

回答 1 投票 0

如何在GCP上的Dataproc群集上安装presto-admin?

我按如下方式启动了我的集群:gcloud dataproc clusters \ create mycluster \ --zone us-west1-b \ --master-machine-type n1-standard-1 \ --master-boot-disk-size 500 \ - 。 ..

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.