google-cloud-dataproc 相关问题

Google Cloud Dataproc是Google云端平台上的托管Hadoop MapReduce,Spark,Pig和Hive服务。该服务提供GUI,CLI和HTTP API访问模式,用于部署/管理集群以及将作业提交到集群。

Flink-BigTable - 有连接器吗?

我想使用 BigTable 作为 Flink 作业的接收器: 有现成的连接器吗? 我可以使用 Datastream API 吗? 如何才能最佳地传递稀疏对象(稀疏度为 99%),即确保没有密钥...

回答 2 投票 0

PySpark 中的特征选择

我正在研究形状为 1,456,354 X 53 的机器学习模型。我想为我的数据集进行特征选择。我知道如何使用以下代码在 python 中进行特征选择。 来自 skle...

回答 4 投票 0

如何从 Spark 作业中检索通过 Dataproc 提交的作业的 jobId

我想获取在 Spark 上下文中运行的 Spark 作业的 jobId。 Dataproc 是否将此信息存储在 Spark Context 中?

回答 3 投票 0

如何在 PySpark 作业中检索 Dataproc 的 jobId

我运行了多个批处理作业,我想将 dataproc 中的 jobId 引用到保存的输出文件。 这将允许拥有与结果关联的参数和输出的所有日志。

回答 2 投票 0

java.lang.ClassNotFoundException:在 google Dataproc 集群上运行 JAR 时出现 com.microsoft.sqlserver.jdbc.SQLServerDriver

我在 POM.xml 中有驱动程序依赖项,并且我正在使用 Maven Shade 插件来创建 Uber Jar。我确实看到 JAR 文件中正确列出了驱动程序依赖项。 Jar 在 intellij 中运行良好,但在

回答 1 投票 0

spark_catalog 需要 dbt python 增量模型中的单部分命名空间

说明: 使用允许创建 Python 模型的 dbt 功能,我创建了一个模型,该模型从某些 BigQuery 表中读取,执行一些计算并写回 BigQuery。 我...

回答 1 投票 0

引起:java.lang.IllegalStateException:此连接器是为 Scala null 制作的,它不适合在 Scala 2.12 上运行

指出的错误代码如下 字符串 strJsonContent = SessionContext .getSparkSession() 。读() .json(文件路径) .toJSON() 。第一的(); 我正在使用 Maven 来构建包,而不使用

回答 1 投票 0

容器以非零退出代码 143 退出。被外部信号杀死

我使用以下代码将模型的输出保存为来自 dataproc 集群的 google big 查询中的表: 规则.write \ .format(“bigquery”) \ .option("表","...

回答 1 投票 0

如何高效地从 BigQuery 读取到 Spark? [已关闭]

当使用BigQuery Connector从BigQuery读取数据时,我发现它首先将所有数据复制到Google Cloud Storage。然后将这些数据并行读取到 Spark 中,但是当读取大表时,它......

回答 3 投票 0

无法将 Spanner 表中的数据读取到 Dataproc 集群上运行的 Spark 作业中

我正在进行集成,其中我试图将数据从简单的 gcp spanner 表读取到在 dataproc 集群上运行的 Spark 作业中。对于此集成,我使用 google-cloud-spanner-j...

回答 1 投票 0

在 Airflow 中使用 DataprocCreateClusterOperator 创建具有公共 IP 地址的 Dataproc 集群

我正在尝试使用 DataprocCreateClusterOperator 在 Airflow DAG 内的 GCP 项目中创建 Dataproc 集群。我正在使用 ClusterGenerator 生成集群的配置。怎么...

回答 1 投票 0

将 Dataproc Serverless 版本从 2.1 升级到 2.2 时出错

我已将 Dataproc Serverless 的版本从 2.1 更改为 2.2,现在当我运行它时,出现以下错误: 线程“main”中的异常 java.util.ServiceConfigurationError: org.ap...

回答 1 投票 0

在 Dataproc 上使用 PySpark 从不同的 GCP 项目访问 BigQuery 数据集

我正在使用 Python 在 Google Cloud 中使用 BigQuery、Dataproc、工作流和云存储。 我有两个 GCP 项目: gcp-project1:包含 BigQuery 数据集 gcp-project1.my_dataset.my_tab...

回答 1 投票 0

提交无服务器批处理作业时如何调试状态为 INVALID_ARGUMENT 的 InactiveRpcError?

提交 dataproc 无服务器批量请求时,我们收到如下错误: grpc._channel._InactiveRpcError: <_InactiveRpcError of RPC that terminated with: status = StatusCode.

回答 1 投票 0

Spark 不支持解串器:需要一个“ARRAY”字段,但得到“MAP<STRING, STRING>”

最近我们已迁移到dataproc image 2.2版本,并支持scala 2.12.18和spark 3.5版本。 封装测试 导入 org.apache.spark.sql.SparkSession 导入测试.模型._ 哦...

回答 1 投票 0

GCP Dataproc 上的 Pyspark - 部分读取 gzip 编码的云存储文件的数据

我在 Google Dataproc 中有一个工作流程模板,它从 Google Cloud Storage 中的 json gzip 压缩文件读取架构,其中包含以下标头(因此可以进行解压缩转码):

回答 2 投票 0

使用 DataprocCreateClusterOperator 传递元数据字段时面临的问题 (Airflow 2.0)

我在使用 DataprocCreateClusterOperator 在 Dataproc 集群中安装软件包时遇到一些问题 我正在尝试升级到 Airflow 2.0 错误信息: ValueError:元数据无效:[('

回答 2 投票 0

Dataproc 上的 Spark:大型数据集(约 3000 万条记录)的 BigQuery 数据插入速度缓慢

我有一个在 Google Cloud Dataproc 上运行的 Scala Spark 作业,该作业向 Google BigQuery (BQ) 表提供数据并将数据写入其中。该代码适用于较小的数据集,但在处理较大的数据量时(...

回答 1 投票 0

在 Bigquery 中写入表时出现 Pyspark 性能问题

我是 PySpark 世界的新手,在将数据从数据帧写入 Bigquery 中的表时遇到严重的性能问题。我已经尝试了我读过的所有内容、建议、使用

回答 1 投票 0

如何在 Dataproc 上运行 Apache Beam?

我正在尝试通过 Apache Spark Runner 在 Google Dataproc 上运行 Apache Beam 的示例代码,因此我参考了此页面。 示例代码是下面的word_count.py。 # # 已授权给 Apache

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.