Google Cloud Dataproc是Google云端平台上的托管Hadoop MapReduce,Spark,Pig和Hive服务。该服务提供GUI,CLI和HTTP API访问模式,用于部署/管理集群以及将作业提交到集群。
如何在使用 DataprocInstantiateInlineWorkflowTemplateOperator Airflow Operator 时启用 GPU?
我正在使用airflow.providers.google.cloud.operators.dataproc.DataprocInstantiateInlineWorkflowTemplateOperator将作业从Airflow提交到GCP Dataproc。 现在它接受以下模板...
Dataproc:从边缘节点向 YARN 提交 Spark 作业时对集群 HDFS 的依赖
我有一个正在运行的 Dataproc 集群。我想使用 Spark-Submit 从集群外部的边缘节点直接向 YARN 提交 Spark 作业。理想情况下,spark-submit 只需要访问 YARN
我正在使用 Dataroc Metastore、Dataproc Batch 和 Pyspark。虽然我使用的是 GCP,但我相信这是常见的 Apache Iceberg 问题。 我运行我的 Spark 作业并自动创建了冰山旅行表
我正在考虑运行一个托管 Hive 服务器的持久 GCP Dataproc 集群,它将提供一个 HiveQL 接口,用于查询和更新存储在 Google Cloud Storage 中的长期数据,
通过 createTime 过滤 GCP dataproc 批次列表不起作用
我正在尝试获取在特定日期创建(成功/失败/运行)的 GCP dataproc 批次的列表。但是,当我尝试过滤 dataproc batc 的结果时,我不断收到错误...
我在 Google Cloud 中启动了一个 DataProc 集群。 我正在其中执行 Spark 应用程序。该应用程序的作用类似于网络服务器。它监听请求;然后触发 Spark 作业(又名:Spark
IllegalArgumentException:BigQueryConnectorException$InvalidSchemaException:目标表的架构与数据帧的架构不兼容
我们无法将数据写入大查询中。面临以下问题。 大查询连接器 jar:spark-3.4-bigquery-0.33.0.jar 错误客户端:应用程序诊断消息:用户类引发异常:jav...
在 Google Dataproc Serverless 中找不到适用于 jdbc:mysql://metastore.example.com/metastore 的驱动程序
我正在尝试使用 Google Cloud Dataproc Serverless 运行 Spark 作业。当我使用普通的 dataproc Spark 集群运行该作业时,该作业运行良好。它使用存储在 mysql 数据库中的 Hive 元存储。当我...
GCP 中 DataProc 集群中 Spot/Standard 抢占式节点的正常退役
我们正在尝试在 GCP 中设置 DataProc 集群。 在这样做的同时,我们尝试使用 Spot VM 或标准可抢占 VM 的辅助节点(注意:现货 VM 也是可抢占的)。 当...
当我们在虚拟机上创建dataproc集群时,我们可以选择在配置节点下添加额外的磁盘,即。 1) 主磁盘大小/类型 2) 本地 SSD 的数量。 例如,VM n2-standard-4 有 4...
如何解决运行 pyspark 代码的 Dataproc 集群中的 OutOfMemoryError?
我正在编写 pyspark 代码,我在其中连接到 BigQuery 表并将该源表作为 df 导入。该过程需要重命名 df 列名称。为此,我定义了一个字典,
spark.sql.shuffle.partitions - 默认值
根据文档 https://cloud.google.com/dataproc/docs/support/spark-job-tuning#:~:text=spark.-,sql.,less%20than%20100%20vCPUs%20total .,spark.sql.shuffle.partitions的默认值为200。 是...
服务器错误:内部服务器错误:模块“google.auth.credentials”没有属性“CredentialsWithTokenUri”
我正在尝试使用以下 python 包创建 Data Proc 集群。 "PIP_PACKAGES": "google-cloud-bigquery==3.10.0 google-resumable-media[请求]==2.5.0 google-cloud-storage==2...
Dataproc 集群中的 Scala Spark 作业返回 java.util.NoSuchElementException:None.get
我收到错误 错误 org.apache.spark.executor.Executor:阶段 0.0 中任务 0.0 出现异常(TID 0) java.util.NoSuchElementException:None.get 当我使用 Dataproc 集群运行作业时,当我...
将位置参数传递给 Dataproc 无服务器 PySpark script.py
我运行了以下语句,但它未能将参数(--args argument =“xyz”)传递给script.py。我尝试以不同的方式传递参数,但脚本失败并出现错误 Index...
无法从“google.cloud”(未知位置)导入名称“dataproc_v1”
尝试从计算机通过 Jupyter Notebook 访问使用 Dataproc,我使用 pip 安装了所需的库。但是导入时出现错误 导入 google.cloud.dataproc_v1 错误如下
当我将着色 JAR 提交到本地独立集群时,它工作正常。但是,当我将其提交到 Dataproc 集群时,我遇到了错误“java.lang.NoClassDefFoundError”,即使...
在我的项目中,启用constraints/compute.requireOsLogin策略约束。 如果我尝试使用以下命令运行 dataproc 批处理作业: gcloud dataproc 批量提交 --project 在我的项目中,启用了 constraints/compute.requireOsLogin 策略约束。 如果我尝试使用此命令运行 dataproc 批处理作业: gcloud dataproc batches submit --project <project-id> --region us-east1 pyspark --batch batch-123 gs://mybucket/test.py --version 2.1 --subnet test 我收到以下错误: ERROR: (gcloud.dataproc.batches.submit.pyspark) Batch job is FAILED. Detail: Constraint constraints/compute.requireOsLogin violated for project 123456789. 子网已启用专用 Google 访问权限。 test.py 文件可以是任何内容,我从here中获取了示例。 如何修复该错误? 我认为 dataproc 批次使用 Dataproc Serverless,它自行管理虚拟机,因此操作系统登录被禁用。如果您创建一个 Dataproc GCE 集群并提交作业,我认为这应该可行。
Dataproc 笔记本中的 Spark-Bigquery 连接器
我正在尝试在笔记本中使用spark-bigquery连接器,并在dataproc用户管理的笔记本中使用spark内核。我能够正确设置配置以使用 Spark-bigquery 连接器
我可以将 Google Dataproc 中的 Spark Master 公开给 Cloud Run 上运行的另一个服务吗?
我将我的应用程序部署为 Cloud Run 服务,其功能之一是使用 Spark://:7077 形式的 URL 将 Spark 作业提交给 Spark Master,该 URL 可以是