apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎，为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习，图形处理有关。

我需要帮助。我有下一个 json 示例 json_样本我需要使用 pyspark 将 json 输入转换为数据帧，以便稍后保存到镶木地板文件中。我尝试： json_path = 's3://df-julio-poc/

dataframe apache-spark pyspark aws-glue

回答 1 投票 0

在 Scala 2.12.10 和 Java 1.8 IDEA 中使用时，如何解决“Illegal circularinheritance涉及trait Iterable”编译错误？

看起来Scala编译器有冲突。该错误发生在 Scala 2.12.10、Spark 2.4.4 和 Java 1.8 IDEA 中的 val list1 = sc.makeRDD(List(1,2,3,4)) 中。导入 org.apache.spark.{SparkC...

scala apache-spark intellij-idea

回答 1 投票 0

在 apache Spark 数据帧中读取 pdf 文件

我们可以使用下面的代码读取avro文件， val df = Spark.read.format("com.databricks.spark.avro").load(路径) 是否可以使用 Spark dataframes 读取 pdf 文件？

scala apache-spark dataframe

回答 2 投票 0

模拟spark.read().format().options().load()但不模拟spark.table()

我需要测试以下功能 - 私有 HashMap> getDataSources(SparkSession Spark) { HashMap> ds = 新

unit-testing apache-spark mocking mockito powermockito

回答 1 投票 0

Spark 驱动程序由于与执行器通信而内存不足

我的 Spark 驱动程序因 OOM 而失败： java.lang.OutOfMemoryError：Java堆空间在 java.util.Arrays.copyOf(Arrays.java:3332) 在 java.lang.AbstractStringBuilder.ensureCapacityInternal(

java scala apache-spark memory-management out-of-memory

回答 1 投票 0

Apache Spark 和 Spring Boot 的依赖冲突

所以我正在构建一个用于交易策略的全栈回测应用程序，目前我考虑使用 Spring Boot 作为服务器，并使用 Apache Spark 进行数据处理。我尝试创建 Spring B...

java spring spring-boot apache-spark

回答 5 投票 0

在 docker 上运行的 Spark 和 HDFS 集群

我正在尝试设置一个在本地计算机上运行的 Spark 应用程序，以连接到 HDFS 集群，其中 NameNode 在 Docker 容器内运行。以下是我的设置的相关详细信息：

docker apache-spark hadoop hdfs

回答 1 投票 0

UDF？与列？在 pyspark 中更新列哪个更好？

如果我们只是实现一个简单的函数来更新 pyspark 中的列（就地），我们可以使用：当语法，例如 df.withColumn("col_name", when(col("reference")==1, False).othe...

python apache-spark pyspark amazon-emr

回答 1 投票 0

使用 Azure Identity 凭据进行 Spark 访问 Blob 存储

我尝试使用 Azure RBAC 来保护对存储 blob 的访问，并使用 Azure Identity 从 Apache Spark 访问这些 blob。我看到最新版本的 Hadoop-Azure 支持 abfs，它...

apache-spark azure-active-directory

回答 2 投票 0

Databricks Spark 是否在第一次读取后保留数据（在 Spark 缓存之外）

我一直在 Spark 中（特别是在 Databricks 中）努力理解一些事情，Spark 是否在第一次读取后保留数据（以某种不是缓存的存储格式）？更具体地说，w...

scala apache-spark databricks azure-databricks rdd

回答 1 投票 0

Apachi Sedona NoClassDefFoundError：scala/collection/IterableOnce

我正在尝试运行此代码：火花 = SparkSession.builder \ .appName("SedonaTest") \ .config("spark.jars.packages", "org.apache.sedona:sedona-spark-3.4_2.12:1.6.1,...

apache-spark pyspark geospatial apache-sedona

回答 1 投票 0

Apache Spark：Windows 上的“java.net.SocketException：连接重置”错误

我尝试在 Windows 10 上设置 Apache Spark，但从 VSCode 运行 Spark 时不断收到错误： # 进口从 pyspark.sql 导入 SparkSession # 创建 SparkSession 火花 = SparkSession.bu...

python java windows apache-spark

回答 1 投票 0

使用 Maven Shade 插件的 Apache Spark 项目中的 Jackson Databind 冲突

我正在开发一个使用 Apache Spark 处理 IMDb 数据的项目。我的设置涉及 Spark Core 和 Spark SQL 依赖项，以及用于处理 JSON 序列化和反序列化的 Jackson...

java maven apache-spark jackson amazon-emr

回答 1 投票 0

PySpark 流式传输与 AWS Kinesis Datastream 连接

我正在尝试将 AWS Kinesis Data Stream 读入 PySpark sql 数据帧。这是我的Python代码将 pyspark 导入为 ps 火花=（ ps.sql.SparkSession.builder .config(地图= { '火花...

apache-spark pyspark apache-spark-sql spark-streaming amazon-kinesis

回答 1 投票 0

需要帮助理解为什么引入 GROUP BY 后 Spark 查询需要更长的时间来执行

我在 Oracle 数据库中有 3 个表，我正在尝试加入并运行一些聚合：订单：（3000 + 行） order_line_items: (5000 + 行) item_wms：（1400 万行）当我运行以下命令时...

apache-spark pyspark apache-spark-sql query-optimization database-performance

回答 1 投票 0

Kubernetes Spark Operator 无法在映像中找到 JAR 文件

我正在尝试使用 Kubernetes Spark Operator 部署 SparkApplication。我为 Spark 作业构建了一个自定义 Docker 映像，但遇到了驱动程序 pod 找不到 JAR f 的问题...

apache-spark kubernetes kubernetes-operator

回答 1 投票 0

如何向数据框中的所有列添加双引号并保存到 csv

我需要帮助来做一些与数据框相关的事情我需要保存一个 csv 文件，其中所有列在值的开头和结尾都包含双引号。该数据框是在 r...

python-3.x dataframe apache-spark pyspark aws-glue

回答 1 投票 0

没有记录被处理并且所有检查点文件数据不一致

我正在尝试使用 AWS Glue Streaming ETL 作业使用触发器进行读写。AvailableNow 与 Kinesis Data Streams 一起使用，就像我与 Kafka 一起使用一样，但没有处理任何记录，并且所有检查点文件都有

apache-spark spark-streaming aws-glue amazon-kinesis

回答 1 投票 0

AWS Glue 流 + Kinesis + 触发器现已推出

apache-spark spark-streaming aws-glue amazon-kinesis

回答 1 投票 0

vanilla Spark 中 delta 表的模式演变

我正在尝试合并普通版 Spark 中的增量表如果不是 DeltaTable.isDeltaTable(spark,delta_table_path): df.write.format("delta").mode("覆盖").o...

apache-spark pyspark delta-lake delta

回答 1 投票 0

apache-spark 相关问题

最新问题