pyspark 相关问题

Spark Python API(PySpark)将apache-spark编程模型暴露给Python。

Spark 分桶蜂巢 Metasore

我有两个分桶表,它们分桶在同一列名称上。 Spark 执行器如何将具有相同 id 分布的文件挑选到同一台机器中?Metastore 有什么帮助?

回答 1 投票 0

Spark 传入 JSON 流处理

我一直在尝试完成一个项目,其中我需要使用kafka将数据流发送到本地Spark来处理传入的数据。但是我无法显示和使用右侧的数据框...

回答 1 投票 0

Pyspark - 无法在 Windows 11 上使用 df.show() 显示 DataFrame 内容

我已按照官方文档在本地 Windows 11 计算机上设置 Apache Spark。 此设置包括: 正确安装 Apache Spark、设置环境变量等。 创造...

回答 1 投票 0

为什么 SparkUI 在“作业”选项卡下仅显示 DAG 中的操作,而不显示任何转换?

我有一个简单的程序 - lines = sc.parallelize(['a','b','c','d']) lines.map(myfunct1).flatMap(flatmapfunc).map(myfunct2).collect() 当我在 Spark 中提交这个程序并查看 ...

回答 1 投票 0

PySpark 应用程序返回“NoClassDefFoundError:com/datastax/spark/connector/util/Logging”

我遇到了这个错误: py4j.protocol.Py4JJavaError:调用 o59.start 时发生错误。 :java.lang.NoClassDefFoundError:com/datastax/spark/connector/util/Logging 在 java.base/java.lang.

回答 1 投票 0

计算 pyspark 中两个不同时间序列列的滚动计数

我有一个包含两列的 pyspark 数据框。到达和离开。这个想法是计算落在基于到达计算的指定窗口内的出发事件的数量...

回答 1 投票 0

PySpark FuzzyWuzzy UDF 在小数据集上导致超时错误/在 PySpark 中过滤具有 Fuzzy Wuzzy 相似度分数的列时出现超时错误

我正在开发一个 PySpark 脚本,以使用 FuzzyWuzzy 计算列之间的相似度分数。我为此定义了一个 UDF,并使用 for 循环来迭代元数据中指定的列...

回答 1 投票 0

Databricks pyspark pandas 与 numpy 发生错误

我在使用 pyspark pandas 时收到以下错误: PandasNotImplementedError:方法 pd.Series.__iter__() 未实现。如果您想将数据收集为 NumPy 数组,请使用 '

回答 1 投票 0

Pyspark:动态扁平化层次结构表

我有一个如下所示的 pyspark 数据框: 层次节点父节点 USREBT2.0.1 USREBT2 USREBT2.1.1 USREBT2.0.1 1004052024.0.1 1004052024 1004052024.1.1 1004052024.0.1

回答 1 投票 0

Pandas 或 pyspark 跨列创建

我有以下形式的样本数据: 周年 flag_1 flag_2 26 2022 0 0 27 2022 1 0 28 2022 0 0 2 2023 0 1 3 2023 1 0 ...

回答 1 投票 0

每个分区文件是否包含Spark DataFrameWriter.partitionBy之后的所有列?

在Spark数据管道中,我想依赖mapPartitions来运行一些计算。我准备一些数据并希望使用 DataFrameWriter.partitionBy 将其存储在分区中。 是否保证e...

回答 2 投票 0

Pyspark 错误:错误调用“列”

此处出现 Pyspark 参考错误(下面的第二个代码块):“if fi.stat().st_ctime >= Today_midnight:”。在 Palantir Foundry 工作,使用转换来重命名 json 文件。知道什么...

回答 1 投票 0

将每个键值对转换为pyspark中的dataframe的列

我有以下地图数组,我想将其转换为结构数组,以将所有键值对转换为数据帧的列 -- DurationPeriod: 数组 (nullable = true) | |-- 元素:m...

回答 1 投票 0

使用pyspark连接到MSSQL Server数据库

我是 pyspark 新手,正在尝试连接到 mssql 服务器数据库。详细信息如下: 当我运行我的脚本时,会打印出来。 ('处理表:', u'POL_ACTION_AMEND') ('表架构:'...

回答 1 投票 0

如何最好地处理连接不良的 json

我从客户端收到一个不正确的 json 文件。客户端将多个 json 响应连接到一个文件中: { 对象1 { ... } } { 对象2 { ...

回答 1 投票 0

将 pyspark 数据帧转换为 json 文件

我下面有一个数据框,想要将该内容写入 .json 文件。 在创建输出文件时,我不需要成功部分日志文件,因此我尝试从数据帧收集()值...

回答 2 投票 0

Pyspark - Python 设置相同时区

我正在阅读一些时区为 GMT-4 的镶木地板 def get_spark(): 火花 = SparkSession.builder.getOrCreate() Spark.conf.set("spark.sql.parquet.enableVectorizedReader", "false&qu...

回答 3 投票 0

Spark 基于多个分区(即 DATE_KEY 和 BASE_FEED)读取镶木地板文件

我正在使用 PySpark 从按 DATE_KEY 分区的 HDFS 位置读取镶木地板文件。以下代码始终从 MAX(DATE_KEY) 分区读取文件并转换为 Polars 数据帧。 定义

回答 1 投票 0

每个分区文件是否包含 Spark DataFrameWriter.partitionBy 之后的所有行?

在Spark数据管道中,我想依赖mapPartitions来运行一些计算。我准备一些数据并希望使用 DataFrameWriter.partitionBy 将其存储在分区中。 是否保证e...

回答 1 投票 0

Spark 作业在 Airflow 中成功,但在 Spark UI 中看不到结果

我是气流和火花的初学者,目前我正在使用气流和火花在本地设置数据管道。 我想做的 DAG 只有一项在 Spark 上运行 pyspark 作业的任务。 那些日子...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.