apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

停止前一个会话后创建一个新的本地 Spark 会话:Spark 告诉我 Derby 并未停止

在我的单元测试中,我必须停止本地 Spark 会话并创建另一个会话(使用从上一个会话保存的元存储中的数据)。 但是当创建另一个 Spark 会话时,它无法使用我的

回答 1 投票 0

pyspark在udf函数中打开管道

使用此处的图片来描述我的问题。 如上,python UDF函数是在worker节点的python进程中执行的。 在 Executor(JVM) 进程启动之前,我创建了一个管道并......

回答 1 投票 0

Apache Spark - 快速入门“java.lang.NoClassDefFoundError:scala/Serialized”

我正在尝试遵循本指南https://spark.apache.org/docs/latest/quick-start.html(scala)。但是,当我应该将 jar 文件提交到 Spark 时,我无法完成最后一步。 # 使用火花-

回答 3 投票 0

暂时不支持MERGE INTO TABLE。在hadoop hive环境中尝试将数据合并到冰山表中时

我需要对我的冰山表执行合并操作。我在 Aws emr 设置上使用 jupyter 笔记本。 Spark:'3.4.1-amzn-2' Hadoop:3.3.6 Hive:3.1.3 EMR 版本:6.15.0 Scala:'版本 2.1...

回答 1 投票 0

写入 Delta 表 Spark 3.5.3 Delta Lake 3.2.0

我似乎无法使用 Spark 作业中的 Delta 格式进行编写,但我不确定我错过了什么。我正在使用 Spark 3.5.3 和 Deltalake 3.2.0。 我的错误: 线程“main”组织中出现异常。

回答 1 投票 0

在任务失败时将已处理的数据缓存在 Spark 中,以便任务重新启动时不会重新处理相同的数据

我们有一个用例,其中我们需要缓存某些已处理的数据,以便 Spark 在任务失败时不会重新处理相同的数据。 假设我们有一千个 Foo 对象...

回答 1 投票 0

PySpark GroupedData - 链接几种不同的聚合方法

我正在 pyspark 中使用 GroupedData。 这就是我的环境。 欢迎来到 ______ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_...

回答 1 投票 0

如何在 Apache Spark scala 中读取 PDF 文件和 xml 文件?

我读取文本文件的示例代码是 val text = sc.hadoopFile(路径, classOf[TextInputFormat], classOf[LongWritable], classOf[Text], sc.defaultMinPartitions) var rddwithPath = text.asInstan...

回答 4 投票 0

无法在 GeoSparkRegistrator.registerAll(spark) 上注册 Spark 会话

我一直在尝试向GeoSpark注册spark。我已经在python 3.7中安装了apache sedona 3.1.3版本。 Spark 会话已使用创建 #导入需要的库 导入操作系统 进口大叶 我...

回答 2 投票 0

写入大于默认分区大小的镶木地板文件

如果默认分区字节大小为128MB,以我的理解,不可能用例如600MB来编写镶木地板。如何确保使用煤炭的 DataLake 中没有小文件...

回答 1 投票 0

com.holdenkarau.spark.testing - java.lang.NoSuchFieldError:METASTOREURIS

我有一个spark scala应用程序,它使用以下版本。 依赖项: org.apache.spark:spark-core_2.12:jar:3.3.2 org.apache.spark:spark-hive_2.12:jar:3.3.2 org.apache.hive:hive-common:jar:2.3...

回答 1 投票 0

使用 pyspark 计算组总计数的百分比

我在 pyspark 中有以下代码,生成一个表格,显示列的不同值及其计数。我想要另一列显示总计数的百分比

回答 4 投票 0

如何使用pyspark检查指定的文件路径是否存在

我有以下两本词典 数据路径={ “人”:“/数据/原始/人/*”, “位置”:“/数据/原始/位置/*”, ...

回答 1 投票 0

控制 Spark 中的小数精度溢出

我们使用的是 Spark 2.4.x。 我们的除法运算之一存在精度损失 (69362.86 / 111862.86) 这两个值在表中都定义为十进制(38,3)。当穿过直线时...

回答 2 投票 0

将 StringIndexer 应用于 PySpark Dataframe 中的多个列

我有一个 PySpark 数据框 +--------+--------------+----+----+ |地址| 日期|名称|食物| +--------+--------------+----+----+ |1111111|20151122045510|阴|格| |1111111|20151122045501|尹|...

回答 4 投票 0

Spark UDF 空处理

我正在努力处理 UDF 中的空值,该 UDF 对由浮点结构组成的数据帧(源自配置单元表)进行操作: 数据框(点)具有以下架构:

回答 1 投票 0

在 Pyspark 中将字典从一个笔记本传递到另一个笔记本时出现问题

我是 pyspark 的新手。我目前的项目需求是在Databricks中做ETL。我有一个 CSV 文件,其中有近 3 亿行,而这只是其中一个来源。将会有另外2个数据源...

回答 1 投票 0

Spark write 方法抛出 IO 异常 - mkdirs 无法创建文件

我当前正在运行一个 pyspark 程序,该程序尝试将 parquet 文件写入网络驱动器上的本地文件系统文件夹。但程序在写入 parquet 文件时抛出错误。然而...

回答 1 投票 0

在 Kubernetes 上提交的一项作业中存在多个 Spark 会话

我们可以在一次提交作业中使用 Kubernetes 中的多个启动和停止 Spark 会话吗? 比如:如果我使用这个提交一份工作 bin/spark-提交 \ --master k8s://https://:&...

回答 1 投票 0

如何将地图转换为数据框?

m 是一张地图,如下: 标量>米 res119:scala.collection.mutable.Map [任何,任何] = Map(A-> 0.11164610291904906,B-> 0.11856755943424617,C-> 0.1023171832681312) 我想得到: 名字...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.