Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。
停止前一个会话后创建一个新的本地 Spark 会话:Spark 告诉我 Derby 并未停止
在我的单元测试中,我必须停止本地 Spark 会话并创建另一个会话(使用从上一个会话保存的元存储中的数据)。 但是当创建另一个 Spark 会话时,它无法使用我的
使用此处的图片来描述我的问题。 如上,python UDF函数是在worker节点的python进程中执行的。 在 Executor(JVM) 进程启动之前,我创建了一个管道并......
Apache Spark - 快速入门“java.lang.NoClassDefFoundError:scala/Serialized”
我正在尝试遵循本指南https://spark.apache.org/docs/latest/quick-start.html(scala)。但是,当我应该将 jar 文件提交到 Spark 时,我无法完成最后一步。 # 使用火花-
暂时不支持MERGE INTO TABLE。在hadoop hive环境中尝试将数据合并到冰山表中时
我需要对我的冰山表执行合并操作。我在 Aws emr 设置上使用 jupyter 笔记本。 Spark:'3.4.1-amzn-2' Hadoop:3.3.6 Hive:3.1.3 EMR 版本:6.15.0 Scala:'版本 2.1...
写入 Delta 表 Spark 3.5.3 Delta Lake 3.2.0
我似乎无法使用 Spark 作业中的 Delta 格式进行编写,但我不确定我错过了什么。我正在使用 Spark 3.5.3 和 Deltalake 3.2.0。 我的错误: 线程“main”组织中出现异常。
在任务失败时将已处理的数据缓存在 Spark 中,以便任务重新启动时不会重新处理相同的数据
我们有一个用例,其中我们需要缓存某些已处理的数据,以便 Spark 在任务失败时不会重新处理相同的数据。 假设我们有一千个 Foo 对象...
PySpark GroupedData - 链接几种不同的聚合方法
我正在 pyspark 中使用 GroupedData。 这就是我的环境。 欢迎来到 ______ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_...
如何在 Apache Spark scala 中读取 PDF 文件和 xml 文件?
我读取文本文件的示例代码是 val text = sc.hadoopFile(路径, classOf[TextInputFormat], classOf[LongWritable], classOf[Text], sc.defaultMinPartitions) var rddwithPath = text.asInstan...
无法在 GeoSparkRegistrator.registerAll(spark) 上注册 Spark 会话
我一直在尝试向GeoSpark注册spark。我已经在python 3.7中安装了apache sedona 3.1.3版本。 Spark 会话已使用创建 #导入需要的库 导入操作系统 进口大叶 我...
如果默认分区字节大小为128MB,以我的理解,不可能用例如600MB来编写镶木地板。如何确保使用煤炭的 DataLake 中没有小文件...
com.holdenkarau.spark.testing - java.lang.NoSuchFieldError:METASTOREURIS
我有一个spark scala应用程序,它使用以下版本。 依赖项: org.apache.spark:spark-core_2.12:jar:3.3.2 org.apache.spark:spark-hive_2.12:jar:3.3.2 org.apache.hive:hive-common:jar:2.3...
我在 pyspark 中有以下代码,生成一个表格,显示列的不同值及其计数。我想要另一列显示总计数的百分比
我有以下两本词典 数据路径={ “人”:“/数据/原始/人/*”, “位置”:“/数据/原始/位置/*”, ...
我们使用的是 Spark 2.4.x。 我们的除法运算之一存在精度损失 (69362.86 / 111862.86) 这两个值在表中都定义为十进制(38,3)。当穿过直线时...
将 StringIndexer 应用于 PySpark Dataframe 中的多个列
我有一个 PySpark 数据框 +--------+--------------+----+----+ |地址| 日期|名称|食物| +--------+--------------+----+----+ |1111111|20151122045510|阴|格| |1111111|20151122045501|尹|...
我正在努力处理 UDF 中的空值,该 UDF 对由浮点结构组成的数据帧(源自配置单元表)进行操作: 数据框(点)具有以下架构:
在 Pyspark 中将字典从一个笔记本传递到另一个笔记本时出现问题
我是 pyspark 的新手。我目前的项目需求是在Databricks中做ETL。我有一个 CSV 文件,其中有近 3 亿行,而这只是其中一个来源。将会有另外2个数据源...
Spark write 方法抛出 IO 异常 - mkdirs 无法创建文件
我当前正在运行一个 pyspark 程序,该程序尝试将 parquet 文件写入网络驱动器上的本地文件系统文件夹。但程序在写入 parquet 文件时抛出错误。然而...
在 Kubernetes 上提交的一项作业中存在多个 Spark 会话
我们可以在一次提交作业中使用 Kubernetes 中的多个启动和停止 Spark 会话吗? 比如:如果我使用这个提交一份工作 bin/spark-提交 \ --master k8s://https://:&...
m 是一张地图,如下: 标量>米 res119:scala.collection.mutable.Map [任何,任何] = Map(A-> 0.11164610291904906,B-> 0.11856755943424617,C-> 0.1023171832681312) 我想得到: 名字...