Google Cloud Dataproc是Google云端平台上的托管Hadoop MapReduce,Spark,Pig和Hive服务。该服务提供GUI,CLI和HTTP API访问模式,用于部署/管理集群以及将作业提交到集群。
Dataproc Serverless Interactive 自定义环境变量
我在 Dataproc Serverless Interactive PySpark 会话中设置自定义环境变量时遇到问题。我按照文档并使用 Spark 设置了我的 python 环境变量。
从 dataProc Spark 作业将数据发布到 pubSub 时出错:找不到功能通道服务提供者
我正在 GCP DataProc 集群上运行 Spark scala 作业。处理数据后,我需要将消息发布到 PubSub 主题,但出现如下错误。 无功能频道服务
该代码从 GCS 读取 628360 行的 CSV,使用 withColumn 方法对创建的 Dataframe 进行转换,然后写入分区的 Bigquery 表。 尽管这个简单的工作流程...
从 Postgres 读取数据并写入 Google BigQuery 时架构不匹配
我创建了一个 pyspark 脚本来通过 Dataproc 将数据从 PG DB 迁移到 Google Bigquery,但是在 dataproc 上运行日志时遇到错误 引起的:java.lang.NullPointerExcepti...
如何使用BigQueryToPostgresOperator
我是在 GCP 上使用 apache-airflow 的新手,我正在尝试在 Dataproc 无服务器内的 DAG 上使用 BigQueryToPostgresOperator 将表从 Bigquery 发送到 Cloud SQL,特别是发送到
如何在 Terraform 中禁用主要工作人员的自动缩放并仅启用辅助工作人员
我正在通过 Terraform (HCL) 启动 Dataproc 集群。在那里,我需要禁用主要工作人员的自动缩放,并仅对辅助工作人员保持自动缩放。 有人可以帮忙吗...
Dataproc:如何在 Terraform 中禁用主要工作人员的自动缩放并仅启用辅助工作人员
我正在通过 Terraform (HCL) 启动 Dataproc 集群。在那里,我需要禁用主要工作人员的自动缩放,并仅对辅助工作人员保持自动缩放。 有人可以帮忙吗...
Dataproc版本升级:Classloader预计是URLClassLoader的实例
我们一直在 CDF 6.8.2 和 Dataproc 2.0.79-debian10 上运行 Cloud Data Fusion 管道。由于 Dataproc 映像 2.0 即将失去支持,我们正在尝试将 Dataproc 单独升级到 2.1.35-debian...
每当我尝试获取在 GCP Dataproc 集群上运行的 livy 应用程序的状态时,它总是返回空值,无论我在 livy.conf 中更改了什么,这让我很烦恼, 我...
我正在为我的业务实施数据转换,其中涉及从一个大型表(~20 TB)和其他几个较小的表(<100 MB) located in BigQuery. I might fetch the
是否可以为 Dataproc 组件网关使用固定主机名?默认情况下,可以通过 https://42qlunruwrdhhauh3sryzzsz5a-dot-us-central1.dataproc 等 URL 访问 Dataproc 组件网关。
我正在使用 dataproc 2.1 以及 json 文件中的以下 software_config。 “软件配置”:{ “特性”: {}, “可选组件”:[“JUPYTE...
Dataproc serverless 似乎没有利用 Spark 属性连接到外部 hive 元存储
我有一个 GCP postgres 实例,用作 Dataproc 集群的外部 hive 元存储。我希望能够利用此元存储来执行 Dataproc 无服务器作业。尝试
我在实时 Dataproc 集群中更新了一些 Knox 规则并重新启动了 Knox,但新规则不起作用,仍然使用旧规则。可能的原因是什么以及如何解决?
我在实时 Dataproc 集群中更新了一些 Knox 规则并重新启动了 Knox,但新规则不起作用,仍然使用旧规则。可能的原因是什么以及如何解决?
我在实时 Dataproc 集群中更新了一些 Knox 规则并重新启动了 Knox,但新规则不起作用,仍使用旧规则。可能的原因是什么以及如何解决?
Google Cloud Dataproc Serverless gcloud ttl 标志无法识别的参数
我正在使用运行时版本 2.1 运行 Google Cloud Dataproc Serverless Spark 批处理工作负载 该批处理在运行 4 小时后被取消 根据 Google Cloud Dataproc 无服务器指南 ...
如何访问 Dataproc 上使用 --files 传递的文件
gcloud dataproc 作业提交 Spark \ --cluster=集群\ --region=区域 \ --files=config.txt \ --class=类\ --jars=gs://abc.jar 我们需要访问驱动器上的 config.txt...
Dataproc Spark 代码中的 Hadoop fs 配置
我遇到了一个 Spark 代码,它在 GCP dataproc 上运行,向 GCS 读取和写入数据。该代码具有以下 Spark 配置。 Spark_session.sparkContext._conf.set("fs.gs.impl", "...
如何在 Dataproc 上全新安装 Spark 的升级版本
我使用 Spark 3.3.2 附带的 2.1 映像创建了一个 Dataproc 集群。我计划彻底升级到 Spark 3.5,并有一些疑问: 建议的升级步骤是什么...