apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎，为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习，图形处理有关。

停止前一个会话后创建一个新的本地 Spark 会话：Spark 告诉我 Derby 并未停止

在我的单元测试中，我必须停止本地 Spark 会话并创建另一个会话（使用从上一个会话保存的元存储中的数据）。但是当创建另一个 Spark 会话时，它无法使用我的

apache-spark pyspark hive derby

回答 1 投票 0

pyspark在udf函数中打开管道

使用此处的图片来描述我的问题。如上，python UDF函数是在worker节点的python进程中执行的。在 Executor(JVM) 进程启动之前，我创建了一个管道并......

apache-spark pyspark

回答 1 投票 0

Apache Spark - 快速入门“java.lang.NoClassDefFoundError：scala/Serialized”

我正在尝试遵循本指南https://spark.apache.org/docs/latest/quick-start.html（scala）。但是，当我应该将 jar 文件提交到 Spark 时，我无法完成最后一步。 # 使用火花-

apache-spark

回答 3 投票 0

暂时不支持MERGE INTO TABLE。在hadoop hive环境中尝试将数据合并到冰山表中时

我需要对我的冰山表执行合并操作。我在 Aws emr 设置上使用 jupyter 笔记本。 Spark：'3.4.1-amzn-2' Hadoop：3.3.6 Hive：3.1.3 EMR 版本：6.15.0 Scala：'版本 2.1...

apache-spark hadoop pyspark hive apache-iceberg

回答 1 投票 0

写入 Delta 表 Spark 3.5.3 Delta Lake 3.2.0

我似乎无法使用 Spark 作业中的 Delta 格式进行编写，但我不确定我错过了什么。我正在使用 Spark 3.5.3 和 Deltalake 3.2.0。我的错误：线程“main”组织中出现异常。

scala apache-spark parquet distributed-computing delta-lake

回答 1 投票 0

在任务失败时将已处理的数据缓存在 Spark 中，以便任务重新启动时不会重新处理相同的数据

我们有一个用例，其中我们需要缓存某些已处理的数据，以便 Spark 在任务失败时不会重新处理相同的数据。假设我们有一千个 Foo 对象...

apache-spark scala-spark

回答 1 投票 0

PySpark GroupedData - 链接几种不同的聚合方法

我正在 pyspark 中使用 GroupedData。这就是我的环境。欢迎来到 ______ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_...

python apache-spark pyspark

回答 1 投票 0

如何在 Apache Spark scala 中读取 PDF 文件和 xml 文件？

我读取文本文件的示例代码是 val text = sc.hadoopFile(路径, classOf[TextInputFormat], classOf[LongWritable], classOf[Text], sc.defaultMinPartitions) var rddwithPath = text.asInstan...

scala apache-spark rdd

回答 4 投票 0

无法在 GeoSparkRegistrator.registerAll(spark) 上注册 Spark 会话

我一直在尝试向GeoSpark注册spark。我已经在python 3.7中安装了apache sedona 3.1.3版本。 Spark 会话已使用创建 #导入需要的库导入操作系统进口大叶我...

python-3.x apache-spark geospatial geospark

回答 2 投票 0

写入大于默认分区大小的镶木地板文件

如果默认分区字节大小为128MB，以我的理解，不可能用例如600MB来编写镶木地板。如何确保使用煤炭的 DataLake 中没有小文件...

apache-spark pyspark apache-spark-sql

回答 1 投票 0

com.holdenkarau.spark.testing - java.lang.NoSuchFieldError：METASTOREURIS

我有一个spark scala应用程序，它使用以下版本。依赖项： org.apache.spark:spark-core_2.12:jar:3.3.2 org.apache.spark:spark-hive_2.12:jar:3.3.2 org.apache.hive:hive-common:jar:2.3...

java scala apache-spark hive scalatest

回答 1 投票 0

使用 pyspark 计算组总计数的百分比

我在 pyspark 中有以下代码，生成一个表格，显示列的不同值及其计数。我想要另一列显示总计数的百分比

apache-spark pyspark apache-spark-sql

回答 4 投票 0

如何使用pyspark检查指定的文件路径是否存在

我有以下两本词典数据路径={ “人”：“/数据/原始/人/*”， “位置”：“/数据/原始/位置/*”， ...

python apache-spark pyspark

回答 1 投票 0

控制 Spark 中的小数精度溢出

我们使用的是 Spark 2.4.x。我们的除法运算之一存在精度损失 (69362.86 / 111862.86) 这两个值在表中都定义为十进制(38,3)。当穿过直线时...

apache-spark apache-spark-sql decimal

回答 2 投票 0

将 StringIndexer 应用于 PySpark Dataframe 中的多个列

我有一个 PySpark 数据框 +--------+--------------+----+----+ |地址| 日期|名称|食物| +--------+--------------+----+----+ |1111111|20151122045510|阴|格| |1111111|20151122045501|尹|...

python apache-spark pyspark

回答 4 投票 0

Spark UDF 空处理

我正在努力处理 UDF 中的空值，该 UDF 对由浮点结构组成的数据帧（源自配置单元表）进行操作：数据框（点）具有以下架构：

scala apache-spark udf

回答 1 投票 0

在 Pyspark 中将字典从一个笔记本传递到另一个笔记本时出现问题

我是 pyspark 的新手。我目前的项目需求是在Databricks中做ETL。我有一个 CSV 文件，其中有近 3 亿行，而这只是其中一个来源。将会有另外2个数据源...

python apache-spark pyspark databricks

回答 1 投票 0

Spark write 方法抛出 IO 异常 - mkdirs 无法创建文件

我当前正在运行一个 pyspark 程序，该程序尝试将 parquet 文件写入网络驱动器上的本地文件系统文件夹。但程序在写入 parquet 文件时抛出错误。然而...