google-cloud-dataproc 相关问题

Google Cloud Dataproc是Google云端平台上的托管Hadoop MapReduce,Spark,Pig和Hive服务。该服务提供GUI,CLI和HTTP API访问模式,用于部署/管理集群以及将作业提交到集群。

Google Cloud dataproc无法使用--scopes = cloud-platform从cloudsql访问hive metastore

我已经创建了2个数据处理集群。要求是使用1个配置单元存储,并且两个集群都可以访问。第一个是ETL群集,它具有--scopes = sql-admin,第二个是ML用户--scopes = ...

回答 1 投票 0

存储在Google Cloud Storage(gcs)存储桶中的Dataproc导入python模块

我在GCS存储桶上具有以下结构:my_bucket / notebooks / jupyter /模块mymodule.py init.py notebook_1.ipynb我如何在笔记本_1.ipynb中导入mymodule? (notebook_1.ipynb是一个...

回答 1 投票 0

在datproc中的集群中查找Hadoop流传输jar

所以我想在dataproc群集上运行python map reduce作业,问题是我似乎找不到需要提交到Main类或jar输入中的Hadoop流jar文件,我正在使用.. 。

回答 1 投票 1

使用pySpark和Cloud Storage过滤数百万个文件

我正面临以下任务:我将各个文件(例如Mb)存储在Google Cloud Storage Bucket中,并按日期在目录中分组(每个目录包含大约5k个文件)。我需要查看每个...

回答 1 投票 3

ClassNotFoundException:找不到数据源:bigquery

我正在尝试将数据从Google BigQuery加载到在Google Dataproc上运行的Spark中(我正在使用Java)。我尝试按照以下说明进行操作:https://cloud.google.com/dataproc/docs/tutorials/bigquery -...

回答 1 投票 1

为什么在Spark / Dataproc上运行它需要这么长时间?

我正在使用在Dataproc集群上运行的Spark处理数据。我尝试过使集群更强大,增加了CPU和磁盘空间,但并没有太大帮助。我使用以下方法从BigQuery读取数据:...

回答 1 投票 1

GCP Dataproc:在激活了堆栈驱动程序的情况下创建集群

使用GCP,我为我的处理实例化工作流程。我想激活Stackdriver日志以获取更多指标(请参阅https://cloud.google.com/dataproc/docs/guides/stackdriver-logging)。来自...

回答 1 投票 1

Dataproc python API错误权限被拒绝

我尝试通过python API创建一个dataproc集群,我对包含凭证的json fle使用身份验证。 app = Flask(__ name__)#通过...

回答 2 投票 0

似乎无法解决的google-cloud-storage Guava依赖冲突有什么问题?

尝试解决这个问题的次数太多了,但仍然无法解决这个问题,似乎问题更深了,这在图书馆内部是一个巨大的问题。 val cloudStorage =“ com ....

回答 1 投票 1

找不到文件/dataproc/v1/PropertiesValue.yaml

我正在编写yaml以从YAML文件实例化DataProc集群。我想在群集中添加lzo压缩,以便覆盖文件中的属性。到目前为止,我编写的YAML文件为...

回答 1 投票 0

Python模块对cloud-dataproc的依赖性

我正在尝试将我的代码部署在cloud-dataproc上。我的应用程序由两个模块组成,moduleA.py和moduleB.py moduleA从modulB导入一个函数我已经将两个模块都上传到了同一存储桶中,但是...

回答 1 投票 1

GCP上PySpark群集的空闲删除配置

我正在尝试定义创建集群功能以在Cloud Dataproc上创建集群。在阅读参考资料时,我遇到了一个空闲的删除参数(idleDeleteTtl),该参数会......>

回答 1 投票 0

获取有关在提交工作流后创建的当前dataproc集群的信息

假设我使用dataproc工作流模板和临时群集来运行pyspark作业...如何获取在pyspark作业中创建的群集的名称

回答 1 投票 0

在GCP Data Proc上运行bash脚本

我想在Data Proc上运行Shell脚本,它将使用参数执行我的Pig脚本。这些参数始终是动态的,由shell脚本计算。当前,此脚本在...

回答 2 投票 1

应用程序错误日志在哪里?

[由于必须通过在日志文件中查找错误消息来调试我们的Python代码,我创建了一个Hadoop Streaming作业,该作业会引发异常,但我无法找到错误...

回答 1 投票 2

将conf文件添加到Google Dataproc中的类路径中>>

我们正在使用HOCON配置在Scala中构建一个spark应用程序,该配置称为application.conf。如果我将application.conf添加到我的jar文件中,然后在Google Dataproc上开始工作,它就会...

回答 1 投票 2

PySpark超时异常

我正在Google Dataproc上运行pySpark,我正在尝试大规模使用网络图。这是我的配置,从pyspark.sql导入pyspark导入SparkSession conf = pyspark.SparkConf(...

回答 1 投票 1

带有GraphFrames的PySpark异常

[我正在使用PySpark和GraphFrames(在Google Dataproc上运行)vertices = spark.createDataFrame([(“ a”,“ Alice”,34),(“ b”,“ Bob”,36), (“ c”,“ Charlie”,30),(“ ...

回答 1 投票 0

如何通过不带SMTP的dataproc群集发送带有附件的邮件?

我有一个用例,在完成带有一些附件(txt,xlsx等)但没有SMTP的过程之后,我需要通过dataproc集群发出电子邮件。你能指导我完成这个吗? ...

回答 1 投票 1

问题使用云外壳连接到hdfs

我发现使用Google Cloud Shell访问我的hadoop数据文件系统非常困难(我已经在Google Cloud Platform上创建了一个集群以供学习)。通用的“ hdfs dfs -ls”或“ hadoop fs -ls ...

回答 2 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.