google-cloud-dataproc 相关问题

Google Cloud Dataproc是Google云端平台上的托管Hadoop MapReduce,Spark,Pig和Hive服务。该服务提供GUI,CLI和HTTP API访问模式,用于部署/管理集群以及将作业提交到集群。

更改GCP DataProc群集的调度程序属性

[当我运行使用Dataproc Cluster Web界面的Jupyter Notebook创建的PySpark代码时,我发现正在运行的代码并没有使用主节点或工作节点中的所有资源。它...

回答 1 投票 2

GCP Dataproc集群上的工作流调度

我有一些复杂的Oozie工作流程,可以从本地Hadoop迁移到GCP Dataproc。工作流程包括shell脚本,Python脚本,Spark-Scala作业,Sqoop作业等。我遇到了一些...

回答 1 投票 1

Bigsearch管道的Elasticsearch部署在云数据融合实例上失败

我正在部署一个数据融合管道,该管道将从Elasticsearch的索引中获取数据并将该数据加载到bigQuery表中。管道仅包含与BigQuery的elasticsearch插件连接器...

回答 1 投票 0

Cloud Dataproc无法访问Cloud Storage存储桶

我有一个cloud dataproc Spark作业,该作业也使用Drvier方面的Cloud Strage API(从同一文件夹中选择特定文件以进行处理)。以下是Maven依赖项: ...

回答 1 投票 0

在Google Cloud DataProc上计划cron作业

我目前有一个PySpark作业,该作业已部署在DataProc群集上(1个主节点和4个具有足够核心和内存的工作节点)。此作业运行在数百万条记录上,并执行昂贵的...

回答 2 投票 3

Google Cloud dataproc无法使用--scopes = cloud-platform从cloudsql访问hive metastore

我已经创建了2个数据处理集群。要求是使用1个配置单元存储,并且两个集群都可以访问。第一个是ETL群集,它具有--scopes = sql-admin,第二个是ML用户--scopes = ...

回答 1 投票 0

存储在Google Cloud Storage(gcs)存储桶中的Dataproc导入python模块

我在GCS存储桶上具有以下结构:my_bucket / notebooks / jupyter /模块mymodule.py init.py notebook_1.ipynb我如何在笔记本_1.ipynb中导入mymodule? (notebook_1.ipynb是一个...

回答 1 投票 0

在datproc中的集群中查找Hadoop流传输jar

所以我想在dataproc群集上运行python map reduce作业,问题是我似乎找不到需要提交到Main类或jar输入中的Hadoop流jar文件,我正在使用.. 。

回答 1 投票 1

使用pySpark和Cloud Storage过滤数百万个文件

我正面临以下任务:我将各个文件(例如Mb)存储在Google Cloud Storage Bucket中,并按日期在目录中分组(每个目录包含大约5k个文件)。我需要查看每个...

回答 1 投票 3

ClassNotFoundException:找不到数据源:bigquery

我正在尝试将数据从Google BigQuery加载到在Google Dataproc上运行的Spark中(我正在使用Java)。我尝试按照以下说明进行操作:https://cloud.google.com/dataproc/docs/tutorials/bigquery -...

回答 1 投票 1

为什么在Spark / Dataproc上运行它需要这么长时间?

我正在使用在Dataproc集群上运行的Spark处理数据。我尝试过使集群更强大,增加了CPU和磁盘空间,但并没有太大帮助。我使用以下方法从BigQuery读取数据:...

回答 1 投票 1

GCP Dataproc:在激活了堆栈驱动程序的情况下创建集群

使用GCP,我为我的处理实例化工作流程。我想激活Stackdriver日志以获取更多指标(请参阅https://cloud.google.com/dataproc/docs/guides/stackdriver-logging)。来自...

回答 1 投票 1

Dataproc python API错误权限被拒绝

我尝试通过python API创建一个dataproc集群,我对包含凭证的json fle使用身份验证。 app = Flask(__ name__)#通过...

回答 2 投票 0

似乎无法解决的google-cloud-storage Guava依赖冲突有什么问题?

尝试解决这个问题的次数太多了,但仍然无法解决这个问题,似乎问题更深了,这在图书馆内部是一个巨大的问题。 val cloudStorage =“ com ....

回答 1 投票 1

找不到文件/dataproc/v1/PropertiesValue.yaml

我正在编写yaml以从YAML文件实例化DataProc集群。我想在群集中添加lzo压缩,以便覆盖文件中的属性。到目前为止,我编写的YAML文件为...

回答 1 投票 0

Python模块对cloud-dataproc的依赖性

我正在尝试将我的代码部署在cloud-dataproc上。我的应用程序由两个模块组成,moduleA.py和moduleB.py moduleA从modulB导入一个函数我已经将两个模块都上传到了同一存储桶中,但是...

回答 1 投票 1

GCP上PySpark群集的空闲删除配置

我正在尝试定义创建集群功能以在Cloud Dataproc上创建集群。在阅读参考资料时,我遇到了一个空闲的删除参数(idleDeleteTtl),该参数会......>

回答 1 投票 0

获取有关在提交工作流后创建的当前dataproc集群的信息

假设我使用dataproc工作流模板和临时群集来运行pyspark作业...如何获取在pyspark作业中创建的群集的名称

回答 1 投票 0

在GCP Data Proc上运行bash脚本

我想在Data Proc上运行Shell脚本,它将使用参数执行我的Pig脚本。这些参数始终是动态的,由shell脚本计算。当前,此脚本在...

回答 2 投票 1

应用程序错误日志在哪里?

[由于必须通过在日志文件中查找错误消息来调试我们的Python代码,我创建了一个Hadoop Streaming作业,该作业会引发异常,但我无法找到错误...

回答 1 投票 2

© www.soinside.com 2019 - 2024. All rights reserved.