google-cloud-dataproc 相关问题

Google Cloud Dataproc是Google云端平台上的托管Hadoop MapReduce，Spark，Pig和Hive服务。该服务提供GUI，CLI和HTTP API访问模式，用于部署/管理集群以及将作业提交到集群。

GoogleHadoopOutputStream：hflush（）：由于速率限制而导致的NO-OP：GCS桶的A类操作增加

...

apache-spark google-cloud-platform google-cloud-storage google-cloud-dataproc yarn

回答 1 投票 0

如何将GCP工作流的参数传递到DataProc

I定义了GCP工作流程，为了示例我分配2个值。

google-cloud-platform workflow google-cloud-dataproc

回答 1 投票 0

我正在尝试在Google CloudDataproc

，对其进行处理并将其写回。但是，这项工作一直在以下错误中失败：

pyspark google-bigquery google-cloud-storage google-cloud-dataproc

回答 0 投票 0

Flink-BigTable - 有连接器吗？

我想使用 BigTable 作为 Flink 作业的接收器：有现成的连接器吗？我可以使用 Datastream API 吗？如何才能最佳地传递稀疏对象（稀疏度为 99%），即确保没有密钥...

google-cloud-platform apache-flink google-cloud-dataproc google-cloud-bigtable

回答 2 投票 0

PySpark 中的特征选择

我正在研究形状为 1,456,354 X 53 的机器学习模型。我想为我的数据集进行特征选择。我知道如何使用以下代码在 python 中进行特征选择。来自 skle...

python machine-learning pyspark feature-selection google-cloud-dataproc

回答 4 投票 0

如何从 Spark 作业中检索通过 Dataproc 提交的作业的 jobId

我想获取在 Spark 上下文中运行的 Spark 作业的 jobId。 Dataproc 是否将此信息存储在 Spark Context 中？

apache-spark spark-streaming google-cloud-dataproc dataproc

回答 3 投票 0

如何在 PySpark 作业中检索 Dataproc 的 jobId

我运行了多个批处理作业，我想将 dataproc 中的 jobId 引用到保存的输出文件。这将允许拥有与结果关联的参数和输出的所有日志。

google-cloud-dataproc

回答 2 投票 0

java.lang.ClassNotFoundException：在 google Dataproc 集群上运行 JAR 时出现 com.microsoft.sqlserver.jdbc.SQLServerDriver

我在 POM.xml 中有驱动程序依赖项，并且我正在使用 Maven Shade 插件来创建 Uber Jar。我确实看到 JAR 文件中正确列出了驱动程序依赖项。 Jar 在 intellij 中运行良好，但在

java maven google-cloud-dataproc mssql-jdbc

回答 1 投票 0

spark_catalog 需要 dbt python 增量模型中的单部分命名空间

说明：使用允许创建 Python 模型的 dbt 功能，我创建了一个模型，该模型从某些 BigQuery 表中读取，执行一些计算并写回 BigQuery。我...

python pyspark google-cloud-dataproc dbt

回答 1 投票 0

引起：java.lang.IllegalStateException：此连接器是为 Scala null 制作的，它不适合在 Scala 2.12 上运行

指出的错误代码如下字符串 strJsonContent = SessionContext .getSparkSession() 。读（） .json(文件路径) .toJSON() 。第一的（）; 我正在使用 Maven 来构建包，而不使用

scala apache-spark google-cloud-platform google-cloud-dataproc

回答 1 投票 0

容器以非零退出代码 143 退出。被外部信号杀死

我使用以下代码将模型的输出保存为来自 dataproc 集群的 google big 查询中的表：规则.write \ .format(“bigquery”) \ .option("表","...

python pyspark google-bigquery google-cloud-dataproc

回答 1 投票 0

如何高效地从 BigQuery 读取到 Spark？ [已关闭]

当使用BigQuery Connector从BigQuery读取数据时，我发现它首先将所有数据复制到Google Cloud Storage。然后将这些数据并行读取到 Spark 中，但是当读取大表时，它......

apache-spark google-bigquery google-cloud-dataproc google-hadoop

回答 3 投票 0

无法将 Spanner 表中的数据读取到 Dataproc 集群上运行的 Spark 作业中

我正在进行集成，其中我试图将数据从简单的 gcp spanner 表读取到在 dataproc 集群上运行的 Spark 作业中。对于此集成，我使用 google-cloud-spanner-j...

apache-spark google-cloud-platform google-cloud-dataproc google-cloud-spanner spark3

回答 1 投票 0

在 Airflow 中使用 DataprocCreateClusterOperator 创建具有公共 IP 地址的 Dataproc 集群

我正在尝试使用 DataprocCreateClusterOperator 在 Airflow DAG 内的 GCP 项目中创建 Dataproc 集群。我正在使用 ClusterGenerator 生成集群的配置。怎么...

airflow gcloud google-cloud-dataproc dataproc

回答 1 投票 0

将 Dataproc Serverless 版本从 2.1 升级到 2.2 时出错

我已将 Dataproc Serverless 的版本从 2.1 更改为 2.2，现在当我运行它时，出现以下错误：线程“main”中的异常 java.util.ServiceConfigurationError: org.ap...

apache-spark google-bigquery google-cloud-dataproc

回答 1 投票 0

在 Dataproc 上使用 PySpark 从不同的 GCP 项目访问 BigQuery 数据集

我正在使用 Python 在 Google Cloud 中使用 BigQuery、Dataproc、工作流和云存储。我有两个 GCP 项目： gcp-project1：包含 BigQuery 数据集 gcp-project1.my_dataset.my_tab...

python apache-spark google-bigquery google-cloud-dataproc

回答 1 投票 0

提交无服务器批处理作业时如何调试状态为 INVALID_ARGUMENT 的 InactiveRpcError？

提交 dataproc 无服务器批量请求时，我们收到如下错误： grpc._channel._InactiveRpcError: <_InactiveRpcError of RPC that terminated with: status = StatusCode.

google-cloud-dataproc google-cloud-dataproc-serverless

回答 1 投票 0

Spark 不支持解串器：需要一个“ARRAY”字段，但得到“MAP<STRING, STRING>”

最近我们已迁移到dataproc image 2.2版本，并支持scala 2.12.18和spark 3.5版本。封装测试导入 org.apache.spark.sql.SparkSession 导入测试.模型._ 哦...

scala apache-spark google-bigquery google-cloud-dataproc

回答 1 投票 0

GCP Dataproc 上的 Pyspark - 部分读取 gzip 编码的云存储文件的数据

我在 Google Dataproc 中有一个工作流程模板，它从 Google Cloud Storage 中的 json gzip 压缩文件读取架构，其中包含以下标头（因此可以进行解压缩转码）：

google-cloud-platform pyspark google-cloud-storage gzip google-cloud-dataproc

回答 2 投票 0

使用 DataprocCreateClusterOperator 传递元数据字段时面临的问题 (Airflow 2.0)

我在使用 DataprocCreateClusterOperator 在 Dataproc 集群中安装软件包时遇到一些问题我正在尝试升级到 Airflow 2.0 错误信息： ValueError：元数据无效：[('

python airflow google-cloud-dataproc airflow-2.x

回答 2 投票 0

google-cloud-dataproc 相关问题

最新问题