google-cloud-dataproc 相关问题

Google Cloud Dataproc是Google云端平台上的托管Hadoop MapReduce,Spark,Pig和Hive服务。该服务提供GUI,CLI和HTTP API访问模式,用于部署/管理集群以及将作业提交到集群。

Dataproc Serverless Interactive 自定义环境变量

我在 Dataproc Serverless Interactive PySpark 会话中设置自定义环境变量时遇到问题。我按照文档并使用 Spark 设置了我的 python 环境变量。

回答 1 投票 0

从 dataProc Spark 作业将数据发布到 pubSub 时出错:找不到功能通道服务提供者

我正在 GCP DataProc 集群上运行 Spark scala 作业。处理数据后,我需要将消息发布到 PubSub 主题,但出现如下错误。 无功能频道服务

回答 1 投票 0

如何更快地处理此 Dataproc 作业?

该代码从 GCS 读取 628360 行的 CSV,使用 withColumn 方法对创建的 Dataframe 进行转换,然后写入分区的 Bigquery 表。 尽管这个简单的工作流程...

回答 1 投票 0

从 Postgres 读取数据并写入 Google BigQuery 时架构不匹配

我创建了一个 pyspark 脚本来通过 Dataproc 将数据从 PG DB 迁移到 Google Bigquery,但是在 dataproc 上运行日志时遇到错误 引起的:java.lang.NullPointerExcepti...

回答 1 投票 0

如何使用BigQueryToPostgresOperator

我是在 GCP 上使用 apache-airflow 的新手,我正在尝试在 Dataproc 无服务器内的 DAG 上使用 BigQueryToPostgresOperator 将表从 Bigquery 发送到 Cloud SQL,特别是发送到

回答 1 投票 0

如何在 Terraform 中禁用主要工作人员的自动缩放并仅启用辅助工作人员

我正在通过 Terraform (HCL) 启动 Dataproc 集群。在那里,我需要禁用主要工作人员的自动缩放,并仅对辅助工作人员保持自动缩放。 有人可以帮忙吗...

回答 1 投票 0

Dataproc:如何在 Terraform 中禁用主要工作人员的自动缩放并仅启用辅助工作人员

我正在通过 Terraform (HCL) 启动 Dataproc 集群。在那里,我需要禁用主要工作人员的自动缩放,并仅对辅助工作人员保持自动缩放。 有人可以帮忙吗...

回答 1 投票 0

Dataproc版本升级:Classloader预计是URLClassLoader的实例

我们一直在 CDF 6.8.2 和 Dataproc 2.0.79-debian10 上运行 Cloud Data Fusion 管道。由于 Dataproc 映像 2.0 即将失去支持,我们正在尝试将 Dataproc 单独升级到 2.1.35-debian...

回答 1 投票 0

Apache Livy 会话显示应用程序 id NULL

每当我尝试获取在 GCP Dataproc 集群上运行的 livy 应用程序的状态时,它总是返回空值,无论我在 livy.conf 中更改了什么,这让我很烦恼, 我...

回答 1 投票 0

Dataproc 的 BigQuery 扫描成本

我正在为我的业务实施数据转换,其中涉及从一个大型表(~20 TB)和其他几个较小的表(<100 MB) located in BigQuery. I might fetch the

回答 1 投票 0

Dataproc 组件网关的固定主机名

是否可以为 Dataproc 组件网关使用固定主机名?默认情况下,可以通过 https://42qlunruwrdhhauh3sryzzsz5a-dot-us-central1.dataproc 等 URL 访问 Dataproc 组件网关。

回答 2 投票 0

ValueError:未知的枚举标签“Hudi”

我正在使用 dataproc 2.1 以及 json 文件中的以下 software_config。 “软件配置”:{ “特性”: {}, “可选组件”:[“JUPYTE...

回答 1 投票 0

Dataproc serverless 似乎没有利用 Spark 属性连接到外部 hive 元存储

我有一个 GCP postgres 实例,用作 Dataproc 集群的外部 hive 元存储。我希望能够利用此元存储来执行 Dataproc 无服务器作业。尝试

回答 1 投票 0

Dataproc 上的 Knox 规则更新不起作用

我在实时 Dataproc 集群中更新了一些 Knox 规则并重新启动了 Knox,但新规则不起作用,仍然使用旧规则。可能的原因是什么以及如何解决?

回答 1 投票 0

Dataproc 上的 Knox 规则更新不起作用

我在实时 Dataproc 集群中更新了一些 Knox 规则并重新启动了 Knox,但新规则不起作用,仍然使用旧规则。可能的原因是什么以及如何解决?

回答 1 投票 0

在 Dataproc 上更新 Knox 规则不起作用

我在实时 Dataproc 集群中更新了一些 Knox 规则并重新启动了 Knox,但新规则不起作用,仍使用旧规则。可能的原因是什么以及如何解决?

回答 1 投票 0

Google Cloud Dataproc Serverless gcloud ttl 标志无法识别的参数

我正在使用运行时版本 2.1 运行 Google Cloud Dataproc Serverless Spark 批处理工作负载 该批处理在运行 4 小时后被取消 根据 Google Cloud Dataproc 无服务器指南 ...

回答 1 投票 0

如何访问 Dataproc 上使用 --files 传递的文件

gcloud dataproc 作业提交 Spark \ --cluster=集群\ --region=区域 \ --files=config.txt \ --class=类\ --jars=gs://abc.jar 我们需要访问驱动器上的 config.txt...

回答 3 投票 0

Dataproc Spark 代码中的 Hadoop fs 配置

我遇到了一个 Spark 代码,它在 GCP dataproc 上运行,向 GCS 读取和写入数据。该代码具有以下 Spark 配置。 Spark_session.sparkContext._conf.set("fs.gs.impl", "...

回答 1 投票 0

如何在 Dataproc 上全新安装 Spark 的升级版本

我使用 Spark 3.3.2 附带的 2.1 映像创建了一个 Dataproc 集群。我计划彻底升级到 Spark 3.5,并有一些疑问: 建议的升级步骤是什么...

回答 1 投票 0

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.