Google Cloud Dataproc是Google云端平台上的托管Hadoop MapReduce,Spark,Pig和Hive服务。该服务提供GUI,CLI和HTTP API访问模式,用于部署/管理集群以及将作业提交到集群。
我想使用 BigTable 作为 Flink 作业的接收器: 有现成的连接器吗? 我可以使用 Datastream API 吗? 如何才能最佳地传递稀疏对象(稀疏度为 99%),即确保没有密钥...
我正在研究形状为 1,456,354 X 53 的机器学习模型。我想为我的数据集进行特征选择。我知道如何使用以下代码在 python 中进行特征选择。 来自 skle...
如何从 Spark 作业中检索通过 Dataproc 提交的作业的 jobId
我想获取在 Spark 上下文中运行的 Spark 作业的 jobId。 Dataproc 是否将此信息存储在 Spark Context 中?
如何在 PySpark 作业中检索 Dataproc 的 jobId
我运行了多个批处理作业,我想将 dataproc 中的 jobId 引用到保存的输出文件。 这将允许拥有与结果关联的参数和输出的所有日志。
我在 POM.xml 中有驱动程序依赖项,并且我正在使用 Maven Shade 插件来创建 Uber Jar。我确实看到 JAR 文件中正确列出了驱动程序依赖项。 Jar 在 intellij 中运行良好,但在
spark_catalog 需要 dbt python 增量模型中的单部分命名空间
说明: 使用允许创建 Python 模型的 dbt 功能,我创建了一个模型,该模型从某些 BigQuery 表中读取,执行一些计算并写回 BigQuery。 我...
引起:java.lang.IllegalStateException:此连接器是为 Scala null 制作的,它不适合在 Scala 2.12 上运行
指出的错误代码如下 字符串 strJsonContent = SessionContext .getSparkSession() 。读() .json(文件路径) .toJSON() 。第一的(); 我正在使用 Maven 来构建包,而不使用
我使用以下代码将模型的输出保存为来自 dataproc 集群的 google big 查询中的表: 规则.write \ .format(“bigquery”) \ .option("表","...
如何高效地从 BigQuery 读取到 Spark? [已关闭]
当使用BigQuery Connector从BigQuery读取数据时,我发现它首先将所有数据复制到Google Cloud Storage。然后将这些数据并行读取到 Spark 中,但是当读取大表时,它......
无法将 Spanner 表中的数据读取到 Dataproc 集群上运行的 Spark 作业中
我正在进行集成,其中我试图将数据从简单的 gcp spanner 表读取到在 dataproc 集群上运行的 Spark 作业中。对于此集成,我使用 google-cloud-spanner-j...
在 Airflow 中使用 DataprocCreateClusterOperator 创建具有公共 IP 地址的 Dataproc 集群
我正在尝试使用 DataprocCreateClusterOperator 在 Airflow DAG 内的 GCP 项目中创建 Dataproc 集群。我正在使用 ClusterGenerator 生成集群的配置。怎么...
将 Dataproc Serverless 版本从 2.1 升级到 2.2 时出错
我已将 Dataproc Serverless 的版本从 2.1 更改为 2.2,现在当我运行它时,出现以下错误: 线程“main”中的异常 java.util.ServiceConfigurationError: org.ap...
在 Dataproc 上使用 PySpark 从不同的 GCP 项目访问 BigQuery 数据集
我正在使用 Python 在 Google Cloud 中使用 BigQuery、Dataproc、工作流和云存储。 我有两个 GCP 项目: gcp-project1:包含 BigQuery 数据集 gcp-project1.my_dataset.my_tab...
提交无服务器批处理作业时如何调试状态为 INVALID_ARGUMENT 的 InactiveRpcError?
提交 dataproc 无服务器批量请求时,我们收到如下错误: grpc._channel._InactiveRpcError: <_InactiveRpcError of RPC that terminated with: status = StatusCode.
Spark 不支持解串器:需要一个“ARRAY”字段,但得到“MAP<STRING, STRING>”
最近我们已迁移到dataproc image 2.2版本,并支持scala 2.12.18和spark 3.5版本。 封装测试 导入 org.apache.spark.sql.SparkSession 导入测试.模型._ 哦...
GCP Dataproc 上的 Pyspark - 部分读取 gzip 编码的云存储文件的数据
我在 Google Dataproc 中有一个工作流程模板,它从 Google Cloud Storage 中的 json gzip 压缩文件读取架构,其中包含以下标头(因此可以进行解压缩转码):
使用 DataprocCreateClusterOperator 传递元数据字段时面临的问题 (Airflow 2.0)
我在使用 DataprocCreateClusterOperator 在 Dataproc 集群中安装软件包时遇到一些问题 我正在尝试升级到 Airflow 2.0 错误信息: ValueError:元数据无效:[('
Dataproc 上的 Spark:大型数据集(约 3000 万条记录)的 BigQuery 数据插入速度缓慢
我有一个在 Google Cloud Dataproc 上运行的 Scala Spark 作业,该作业向 Google BigQuery (BQ) 表提供数据并将数据写入其中。该代码适用于较小的数据集,但在处理较大的数据量时(...
在 Bigquery 中写入表时出现 Pyspark 性能问题
我是 PySpark 世界的新手,在将数据从数据帧写入 Bigquery 中的表时遇到严重的性能问题。我已经尝试了我读过的所有内容、建议、使用
我正在尝试通过 Apache Spark Runner 在 Google Dataproc 上运行 Apache Beam 的示例代码,因此我参考了此页面。 示例代码是下面的word_count.py。 # # 已授权给 Apache