Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。
如何将复杂的 json 结构转换为数据框或 parquet 文件
我需要帮助。 我有下一个 json 示例 json_样本 我需要使用 pyspark 将 json 输入转换为数据帧,以便稍后保存到镶木地板文件中。 我尝试: json_path = 's3://df-julio-poc/
在 Scala 2.12.10 和 Java 1.8 IDEA 中使用时,如何解决“Illegal circularinheritance涉及trait Iterable”编译错误?
看起来Scala编译器有冲突。该错误发生在 Scala 2.12.10、Spark 2.4.4 和 Java 1.8 IDEA 中的 val list1 = sc.makeRDD(List(1,2,3,4)) 中。 导入 org.apache.spark.{SparkC...
我们可以使用下面的代码读取avro文件, val df = Spark.read.format("com.databricks.spark.avro").load(路径) 是否可以使用 Spark dataframes 读取 pdf 文件?
模拟spark.read().format().options().load()但不模拟spark.table()
我需要测试以下功能 - 私有 HashMap> getDataSources(SparkSession Spark) { HashMap> ds = 新
我的 Spark 驱动程序因 OOM 而失败: java.lang.OutOfMemoryError:Java堆空间 在 java.util.Arrays.copyOf(Arrays.java:3332) 在 java.lang.AbstractStringBuilder.ensureCapacityInternal(
Apache Spark 和 Spring Boot 的依赖冲突
所以我正在构建一个用于交易策略的全栈回测应用程序,目前我考虑使用 Spring Boot 作为服务器,并使用 Apache Spark 进行数据处理。 我尝试创建 Spring B...
我正在尝试设置一个在本地计算机上运行的 Spark 应用程序,以连接到 HDFS 集群,其中 NameNode 在 Docker 容器内运行。 以下是我的设置的相关详细信息:
如果我们只是实现一个简单的函数来更新 pyspark 中的列(就地),我们可以使用: 当语法,例如 df.withColumn("col_name", when(col("reference")==1, False).othe...
使用 Azure Identity 凭据进行 Spark 访问 Blob 存储
我尝试使用 Azure RBAC 来保护对存储 blob 的访问,并使用 Azure Identity 从 Apache Spark 访问这些 blob。我看到最新版本的 Hadoop-Azure 支持 abfs,它...
Databricks Spark 是否在第一次读取后保留数据(在 Spark 缓存之外)
我一直在 Spark 中(特别是在 Databricks 中)努力理解一些事情,Spark 是否在第一次读取后保留数据(以某种不是缓存的存储格式)? 更具体地说,w...
Apachi Sedona NoClassDefFoundError:scala/collection/IterableOnce
我正在尝试运行此代码: 火花 = SparkSession.builder \ .appName("SedonaTest") \ .config("spark.jars.packages", "org.apache.sedona:sedona-spark-3.4_2.12:1.6.1,...
Apache Spark:Windows 上的“java.net.SocketException:连接重置”错误
我尝试在 Windows 10 上设置 Apache Spark,但从 VSCode 运行 Spark 时不断收到错误: # 进口 从 pyspark.sql 导入 SparkSession # 创建 SparkSession 火花 = SparkSession.bu...
使用 Maven Shade 插件的 Apache Spark 项目中的 Jackson Databind 冲突
我正在开发一个使用 Apache Spark 处理 IMDb 数据的项目。我的设置涉及 Spark Core 和 Spark SQL 依赖项,以及用于处理 JSON 序列化和反序列化的 Jackson...
PySpark 流式传输与 AWS Kinesis Datastream 连接
我正在尝试将 AWS Kinesis Data Stream 读入 PySpark sql 数据帧。 这是我的Python代码 将 pyspark 导入为 ps 火花=( ps.sql.SparkSession.builder .config(地图= { '火花...
需要帮助理解为什么引入 GROUP BY 后 Spark 查询需要更长的时间来执行
我在 Oracle 数据库中有 3 个表,我正在尝试加入并运行一些聚合: 订单:(3000 + 行) order_line_items: (5000 + 行) item_wms:(1400 万行) 当我运行以下命令时...
Kubernetes Spark Operator 无法在映像中找到 JAR 文件
我正在尝试使用 Kubernetes Spark Operator 部署 SparkApplication。我为 Spark 作业构建了一个自定义 Docker 映像,但遇到了驱动程序 pod 找不到 JAR f 的问题...
我需要帮助来做一些与数据框相关的事情 我需要保存一个 csv 文件,其中所有列在值的开头和结尾都包含双引号。 该数据框是在 r...
我正在尝试使用 AWS Glue Streaming ETL 作业使用触发器进行读写。AvailableNow 与 Kinesis Data Streams 一起使用,就像我与 Kafka 一起使用一样,但没有处理任何记录,并且所有检查点文件都有
AWS Glue 流 + Kinesis + 触发器现已推出
我正在尝试使用 AWS Glue Streaming ETL 作业使用触发器进行读写。AvailableNow 与 Kinesis Data Streams 一起使用,就像我与 Kafka 一起使用一样,但没有处理任何记录,并且所有检查点文件都有
我正在尝试合并普通版 Spark 中的增量表 如果不是 DeltaTable.isDeltaTable(spark,delta_table_path): df.write.format("delta").mode("覆盖").o...