google-cloud-dataproc 相关问题

Google Cloud Dataproc是Google云端平台上的托管Hadoop MapReduce，Spark，Pig和Hive服务。该服务提供GUI，CLI和HTTP API访问模式，用于部署/管理集群以及将作业提交到集群。

如何在使用 DataprocInstantiateInlineWorkflowTemplateOperator Airflow Operator 时启用 GPU？

我正在使用airflow.providers.google.cloud.operators.dataproc.DataprocInstantiateInlineWorkflowTemplateOperator将作业从Airflow提交到GCP Dataproc。现在它接受以下模板...

google-cloud-platform airflow google-cloud-dataproc

回答 1 投票 0

Dataproc：从边缘节点向 YARN 提交 Spark 作业时对集群 HDFS 的依赖

我有一个正在运行的 Dataproc 集群。我想使用 Spark-Submit 从集群外部的边缘节点直接向 YARN 提交 Spark 作业。理想情况下，spark-submit 只需要访问 YARN

apache-spark google-cloud-dataproc

回答 1 投票 0

冰山表快照未过期

我正在使用 Dataroc Metastore、Dataproc Batch 和 Pyspark。虽然我使用的是 GCP，但我相信这是常见的 Apache Iceberg 问题。我运行我的 Spark 作业并自动创建了冰山旅行表

apache-spark hive google-cloud-dataproc iceberg apache-iceberg

回答 1 投票 0

为什么不建议使用持久性 Dataproc 集群？

我正在考虑运行一个托管 Hive 服务器的持久 GCP Dataproc 集群，它将提供一个 HiveQL 接口，用于查询和更新存储在 Google Cloud Storage 中的长期数据，

google-cloud-dataproc

回答 3 投票 0

通过 createTime 过滤 GCP dataproc 批次列表不起作用

我正在尝试获取在特定日期创建（成功/失败/运行）的 GCP dataproc 批次的列表。但是，当我尝试过滤 dataproc batc 的结果时，我不断收到错误...

google-cloud-platform google-cloud-dataproc

回答 1 投票 0

Spark进程运行无磁盘错误异常

我在 Google Cloud 中启动了一个 DataProc 集群。我正在其中执行 Spark 应用程序。该应用程序的作用类似于网络服务器。它监听请求；然后触发 Spark 作业（又名：Spark

apache-spark google-cloud-dataproc

回答 1 投票 0

IllegalArgumentException：BigQueryConnectorException$InvalidSchemaException：目标表的架构与数据帧的架构不兼容

我们无法将数据写入大查询中。面临以下问题。大查询连接器 jar：spark-3.4-bigquery-0.33.0.jar 错误客户端：应用程序诊断消息：用户类引发异常：jav...

apache-spark amazon-emr google-cloud-dataproc

回答 1 投票 0

在 Google Dataproc Serverless 中找不到适用于 jdbc:mysql://metastore.example.com/metastore 的驱动程序

我正在尝试使用 Google Cloud Dataproc Serverless 运行 Spark 作业。当我使用普通的 dataproc Spark 集群运行该作业时，该作业运行良好。它使用存储在 mysql 数据库中的 Hive 元存储。当我...

google-cloud-platform google-cloud-dataproc google-cloud-dataproc-serverless

回答 1 投票 0

GCP 中 DataProc 集群中 Spot/Standard 抢占式节点的正常退役

我们正在尝试在 GCP 中设置 DataProc 集群。在这样做的同时，我们尝试使用 Spot VM 或标准可抢占 VM 的辅助节点（注意：现货 VM 也是可抢占的）。当...

google-cloud-dataproc graceful-shutdown

回答 1 投票 0

额外磁盘在默认虚拟机大小调整之上的作用

当我们在虚拟机上创建dataproc集群时，我们可以选择在配置节点下添加额外的磁盘，即。 1) 主磁盘大小/类型 2) 本地 SSD 的数量。例如，VM n2-standard-4 有 4...

apache-spark google-cloud-platform google-cloud-dataproc

回答 1 投票 0

如何解决运行 pyspark 代码的 Dataproc 集群中的 OutOfMemoryError？

我正在编写 pyspark 代码，我在其中连接到 BigQuery 表并将该源表作为 df 导入。该过程需要重命名 df 列名称。为此，我定义了一个字典，

apache-spark google-cloud-platform pyspark google-cloud-dataproc airflow-2.x

回答 1 投票 0

spark.sql.shuffle.partitions - 默认值

根据文档 https://cloud.google.com/dataproc/docs/support/spark-job-tuning#:~:text=spark.-,sql.,less%20than%20100%20vCPUs%20total .,spark.sql.shuffle.partitions的默认值为200。是...

apache-spark google-cloud-dataproc

回答 1 投票 0

服务器错误：内部服务器错误：模块“google.auth.credentials”没有属性“CredentialsWithTokenUri”

我正在尝试使用以下 python 包创建 Data Proc 集群。 "PIP_PACKAGES": "google-cloud-bigquery==3.10.0 google-resumable-media[请求]==2.5.0 google-cloud-storage==2...

python-3.x google-cloud-dataproc gcs dataproc

回答 1 投票 0

Dataproc 集群中的 Scala Spark 作业返回 java.util.NoSuchElementException：None.get

我收到错误错误 org.apache.spark.executor.Executor：阶段 0.0 中任务 0.0 出现异常（TID 0） java.util.NoSuchElementException：None.get 当我使用 Dataproc 集群运行作业时，当我...

scala apache-spark google-cloud-dataproc

回答 2 投票 0

将位置参数传递给 Dataproc 无服务器 PySpark script.py

我运行了以下语句，但它未能将参数（--args argument =“xyz”）传递给script.py。我尝试以不同的方式传递参数，但脚本失败并出现错误 Index...

python google-cloud-platform pyspark google-cloud-dataproc

回答 1 投票 0

无法从“google.cloud”（未知位置）导入名称“dataproc_v1”

尝试从计算机通过 Jupyter Notebook 访问使用 Dataproc，我使用 pip 安装了所需的库。但是导入时出现错误导入 google.cloud.dataproc_v1 错误如下

python-3.x google-cloud-platform cloud google-cloud-dataproc dataproc

回答 3 投票 0

将 Spark 作业提交到 dataproc

当我将着色 JAR 提交到本地独立集群时，它工作正常。但是，当我将其提交到 Dataproc 集群时，我遇到了错误“java.lang.NoClassDefFoundError”，即使...

java apache-spark google-cloud-dataproc

回答 1 投票 0

Dataproc 批量约束违规

在我的项目中，启用constraints/compute.requireOsLogin策略约束。如果我尝试使用以下命令运行 dataproc 批处理作业： gcloud dataproc 批量提交 --project 在我的项目中，启用了 constraints/compute.requireOsLogin 策略约束。如果我尝试使用此命令运行 dataproc 批处理作业： gcloud dataproc batches submit --project <project-id> --region us-east1 pyspark --batch batch-123 gs://mybucket/test.py --version 2.1 --subnet test 我收到以下错误： ERROR: (gcloud.dataproc.batches.submit.pyspark) Batch job is FAILED. Detail: Constraint constraints/compute.requireOsLogin violated for project 123456789. 子网已启用专用 Google 访问权限。 test.py 文件可以是任何内容，我从here中获取了示例。如何修复该错误？我认为 dataproc 批次使用 Dataproc Serverless，它自行管理虚拟机，因此操作系统登录被禁用。如果您创建一个 Dataproc GCE 集群并提交作业，我认为这应该可行。

google-cloud-platform google-compute-engine google-cloud-dataproc

回答 1 投票 0

Dataproc 笔记本中的 Spark-Bigquery 连接器

我正在尝试在笔记本中使用spark-bigquery连接器，并在dataproc用户管理的笔记本中使用spark内核。我能够正确设置配置以使用 Spark-bigquery 连接器

apache-spark google-cloud-platform google-bigquery google-cloud-dataproc

回答 1 投票 0

我可以将 Google Dataproc 中的 Spark Master 公开给 Cloud Run 上运行的另一个服务吗？

我将我的应用程序部署为 Cloud Run 服务，其功能之一是使用 Spark://:7077 形式的 URL 将 Spark 作业提交给 Spark Master，该 URL 可以是

apache-spark google-cloud-platform google-cloud-run google-cloud-dataproc

回答 1 投票 0

google-cloud-dataproc 相关问题

最新问题