Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。
java.lang.NullPointerException:null:加载scala案例类时
我正在读取bigquery表数据并将它们加载到案例类中,并且在加载它时面临这个空指针异常 java.lang.NullPointerException: null 在 org.apache.spark.unsafe.
我正在尝试编写一个实用程序来“评估”日期的良好格式。我似乎无法成功,因为我不断收到如下错误: 发生异常:Py4JJavaError ...
在 Dataproc 上使用 PySpark 从不同的 GCP 项目访问 BigQuery 数据集
我正在使用 Python 在 Google Cloud 中使用 BigQuery、Dataproc、工作流和云存储。 我有两个 GCP 项目: gcp-project1:包含 BigQuery 数据集 gcp-project1.my_dataset.my_tab...
尝试将架构应用于 JSON 数据时,SPARK 数据框返回 null
我正在使用 SPARK Java API 读取文本文件,将其转换为 JSON,然后对其应用架构。架构可能会根据数据库中的映射表而有所不同,这就是为什么我需要首先转换...
假设我正在读取存储在 PATH 中的一个非常(非常)大的表。过滤表格并选择几列以使其与 df2 兼容后,我继续在新创建的内容上加入 df 和 df2...
计算 350 万个 ID 组合中同时出现的实体的最大数量的函数?
我得到了这个: x| y 1 | a、b、c、d、e 2 | a、b、c、d 3 |甲、丙、丁 ... 我想要这个: 1,2 | 4(甲、乙、丙、丁) 1,3 | 3(a、c、d) 2,3 | 3(a、c、d) 我有 3*10^6 这样的行(300 万条记录) 你可能是 -...
将 ETL 作业从 IBM Datastage 转换为 Apache Spark
我们所有的 ETL 工作负载都是在 IBM Datastage 和 Oracle 作为数据库上设计的,但现在,企业正在寻求开源平台的选择,这些平台提供
如何在 Scala Spark 中从 Excel(xls、xlsx)文件构造 Dataframe?
我有一个包含多个工作表的大型 Excel(xlsx 和 xls)文件,我需要将其转换为 RDD 或 Dataframe,以便稍后可以将其连接到其他数据框。我正在考虑使用 Apache POI 并保存...
我们有两种方法从 Spark 数据帧 df 中选择和过滤数据。第一的: df = df.filter("过滤器定义").select('col1', 'col2', 'col3') 第二: df = df.select('col...
使用 Google Data Fusion 中的 Spark 工具重命名输出文件
我在 Google Data Fusion 中有一个管道,它在 Google Cloud 存储桶的目标目录中生成一个名为“part-00000-XXXXXX”的 CSV 文件(以及一个名为“_SUCCESS”的文件)...
错误SparkContext:无法添加spark-streaming-kafka-0-10_2.13-3.5.2.jar
错误 SparkContext:无法将 home/areaapache/software/spark-3.5.2-bin-hadoop3/jars/spark-streaming-kafka-0-10_2.13-3.5.2.jar 添加到 Spark 环境 导入日志记录 从 pyspark.sql 导入
我想将 Spark 历史执行日志存储在 s3 存储桶中,以便我可以对我的 Spark 应用程序进行一些分析。我的 Spark 应用程序在 EMR(emr-6.15.0)上运行并使用纱线部署。 之后...
遇到 pyspark.sql.utils.AnalysisException:UDF 类未实现任何 UDF 接口
我正在尝试利用 pyspark 中的 Scala udfs 并遇到“pyspark.sql.utils.AnalysisException:UDF 类未实现任何 UDF 接口”错误 我的 scala 代码看起来像这样 爸...
我读到 Spark 会话上下文是线程安全的,但并非在所有情况下都是如此。 我有多线程应用程序,其组织方式如下: N - 工作人员服务事件总线并发送一些简单的 Spark 任务。 ...
Pyspark HASH() 能否安全地将 UUID/GUID 转换为 BIGINT 并保持 Databricks 中的唯一性?
背景 我正在开发 Databricks Lakehouse 实现,并且我们正在为多个表创建一些代理键,以促进标准化下游连接。我们的数据来自...
由于spark.rpc.message.maxSize错误,无法通过胶水作业写入csv
我正在尝试通过 pandas 读取 xlsx 文件,转换一些列并将其转换为 Spark 数据帧,然后尝试通过 Glue 作业将其写入 CSV。 使用 Spark 背后的原因是......
Spark 不支持解串器:需要一个“ARRAY”字段,但得到“MAP<STRING, STRING>”
最近我们已迁移到dataproc image 2.2版本,并支持scala 2.12.18和spark 3.5版本。 封装测试 导入 org.apache.spark.sql.SparkSession 导入测试.模型._ 哦...
如何用Spark高效读取多个parquet小文件?有CombineParquetInputFormat吗?
Spark 生成了多个小 parquet 文件。如何在生产者和消费者 Spark 作业上有效处理少量 parquet 文件。
在我的 Spark 程序中,我可以通过调整 --num-executors 参数来限制程序运行的节点数量。现在我想将我的程序的可扩展性与
Spark 中ReduceByKey 和CombineByKey 的区别[已关闭]
在Spark中,ReduceByKey和CombineByKey的性能有什么区别吗?对此的任何帮助表示赞赏。