apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

Spark 分桶蜂巢 Metasore

我有两个分桶表,它们分桶在同一列名称上。 Spark 执行器如何将具有相同 id 分布的文件挑选到同一台机器中?Metastore 有什么帮助?

回答 1 投票 0

如何比较两个共享相同内容的StructType?

看起来 StructType 保留了顺序,因此两个包含相同 StructField 的 StructType 不被认为是等效的。 例如: val st1 = 结构类型( StructField("ii",StringType,true) ::

回答 3 投票 0

Spark 传入 JSON 流处理

我一直在尝试完成一个项目,其中我需要使用kafka将数据流发送到本地Spark来处理传入的数据。但是我无法显示和使用右侧的数据框...

回答 1 投票 0

Pyspark - 无法在 Windows 11 上使用 df.show() 显示 DataFrame 内容

我已按照官方文档在本地 Windows 11 计算机上设置 Apache Spark。 此设置包括: 正确安装 Apache Spark、设置环境变量等。 创造...

回答 1 投票 0

spark 流可视化

我正在使用 Spark Streaming 从 kafka 代理流式传输数据。我正在使用 Spark Streaming 对数据执行转换。有人可以推荐一个可视化工具,我可以用它来展示真实的......

回答 5 投票 0

为什么 SparkUI 在“作业”选项卡下仅显示 DAG 中的操作,而不显示任何转换?

我有一个简单的程序 - lines = sc.parallelize(['a','b','c','d']) lines.map(myfunct1).flatMap(flatmapfunc).map(myfunct2).collect() 当我在 Spark 中提交这个程序并查看 ...

回答 1 投票 0

PySpark 应用程序返回“NoClassDefFoundError:com/datastax/spark/connector/util/Logging”

我遇到了这个错误: py4j.protocol.Py4JJavaError:调用 o59.start 时发生错误。 :java.lang.NoClassDefFoundError:com/datastax/spark/connector/util/Logging 在 java.base/java.lang.

回答 1 投票 0

如何从 Spark Dataframe 插入、更新数据库中的行

我在Spark中制作了Dataframe。 数据框具有新行以及数据库表具有的关键列的相同行。 我需要插入新行并更新现有行。 例如: 数据框: 钥匙1 按键2

回答 3 投票 0

Databricks pyspark pandas 与 numpy 发生错误

我在使用 pyspark pandas 时收到以下错误: PandasNotImplementedError:方法 pd.Series.__iter__() 未实现。如果您想将数据收集为 NumPy 数组,请使用 '

回答 1 投票 0

使用spark获取均匀的数据样本

这是我的数据集架构: 请求类型 |请求正文 1 体 A 2 身体 B 3 ... 4 5 6 .. 32 身体 XXX 我总共需要获取 500 条记录。 有 32

回答 1 投票 0

每个分区文件是否包含Spark DataFrameWriter.partitionBy之后的所有列?

在Spark数据管道中,我想依赖mapPartitions来运行一些计算。我准备一些数据并希望使用 DataFrameWriter.partitionBy 将其存储在分区中。 是否保证e...

回答 2 投票 0

将每个键值对转换为pyspark中的dataframe的列

我有以下地图数组,我想将其转换为结构数组,以将所有键值对转换为数据帧的列 -- DurationPeriod: 数组 (nullable = true) | |-- 元素:m...

回答 1 投票 0

使用pyspark连接到MSSQL Server数据库

我是 pyspark 新手,正在尝试连接到 mssql 服务器数据库。详细信息如下: 当我运行我的脚本时,会打印出来。 ('处理表:', u'POL_ACTION_AMEND') ('表架构:'...

回答 1 投票 0

Spark 基于多个分区(即 DATE_KEY 和 BASE_FEED)读取镶木地板文件

我正在使用 PySpark 从按 DATE_KEY 分区的 HDFS 位置读取镶木地板文件。以下代码始终从 MAX(DATE_KEY) 分区读取文件并转换为 Polars 数据帧。 定义

回答 1 投票 0

每个分区文件是否包含 Spark DataFrameWriter.partitionBy 之后的所有行?

在Spark数据管道中,我想依赖mapPartitions来运行一些计算。我准备一些数据并希望使用 DataFrameWriter.partitionBy 将其存储在分区中。 是否保证e...

回答 1 投票 0

Scala Spark Sample 和 SampleBy 具有相同的行为

我正在尝试在 Spark Dataframe 中执行分层采样,但 SampleBy 函数的行为(奇怪)与样本类似。 火花版本3.0.1 导入spark.implicits._ val 数据 = 序列...

回答 2 投票 0

Azure 数据工厂触发 Databricks 集群终止

我有一个场景,我必须从 ADF 管道触发 Databricks 通用集群的终止。 实现这一目标的最佳方法是什么?我尝试使用链接服务...

回答 1 投票 0

如何在Spark中检查HDFS目录是否为空

我正在使用org.apache.hadoop.fs来检查HDFS中的目录是否为空。我查找了 FileSystem api,但找不到任何接近它的东西。基本上我想检查目录是否...

回答 3 投票 0

将 zip 文件读入 Apache Spark 数据帧

使用 Apache Spark(或 pyspark),我可以将文本文件读取/加载到 Spark 数据帧中,并将该数据帧加载到 sql 数据库中,如下所示: df = Spark.read.csv("MyFilePath/MyDataFile.txt", sep=...

回答 2 投票 0

缓存和持久化何时执行(因为它们看起来不像操作)?

我正在实现一个spark应用程序,下面是一个示例片段(不完全相同的代码): val rdd1 = sc.textfile(HDFS_PATH) val rdd2 = rdd1.map(func) rdd2.persist(StorageLevel.MEMORY_AND...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.