pyspark 相关问题

Spark Python API(PySpark)将apache-spark编程模型暴露给Python。

如何在 Scala Spark 中从 Excel(xls、xlsx)文件构造 Dataframe?

我有一个包含多个工作表的大型 Excel(xlsx 和 xls)文件,我需要将其转换为 RDD 或 Dataframe,以便稍后可以将其连接到其他数据框。我正在考虑使用 Apache POI 并保存...

回答 5 投票 0

spark中select和filter的顺序有什么偏好吗?

我们有两种方法从 Spark 数据帧 df 中选择和过滤数据。第一的: df = df.filter("过滤器定义").select('col1', 'col2', 'col3') 第二: df = df.select('col...

回答 2 投票 0

Pyspark 根据条件将两行列合并或展平为单行

我有一个这样的数据集: ID,col_a,col_b,帐户类型 詹姆斯·巴特,a1_col_a_data_1,a1_col_b_data_1,1 詹姆斯·巴特,a1_col_a_data_2,a1_col_b_data_2,2 艺术维内雷,a1_col_a_data_3,a1_col_b_data_3,1 莱娜

回答 1 投票 0

错误SparkContext:无法添加spark-streaming-kafka-0-10_2.13-3.5.2.jar

错误 SparkContext:无法将 home/areaapache/software/spark-3.5.2-bin-hadoop3/jars/spark-streaming-kafka-0-10_2.13-3.5.2.jar 添加到 Spark 环境 导入日志记录 从 pyspark.sql 导入

回答 1 投票 0

遇到 pyspark.sql.utils.AnalysisException:UDF 类未实现任何 UDF 接口

我正在尝试利用 pyspark 中的 Scala udfs 并遇到“pyspark.sql.utils.AnalysisException:UDF 类未实现任何 UDF 接口”错误 我的 scala 代码看起来像这样 爸...

回答 1 投票 0

Pyspark HASH() 能否安全地将 UUID/GUID 转换为 BIGINT 并保持 Databricks 中的唯一性?

背景 我正在开发 Databricks Lakehouse 实现,并且我们正在为多个表创建一些代理键,以促进标准化下游连接。我们的数据来自...

回答 1 投票 0

由于spark.rpc.message.maxSize错误,无法通过胶水作业写入csv

我正在尝试通过 pandas 读取 xlsx 文件,转换一些列并将其转换为 Spark 数据帧,然后尝试通过 Glue 作业将其写入 CSV。 使用 Spark 背后的原因是......

回答 1 投票 0

使“Total”行成为 pyspark 数据框中的最后一行

我有这个数据框 A栏 平衡 支付金额 ID 全部的 1000 10000 无效的 1211 0 5000 1 1211 1000 5000 2 我为此尝试过这段代码: df = (df.withColumn("Id", monotonically_increas...

回答 1 投票 0

如何使用spark将json文件转换为dataframe?

我今天的任务之一是读取一个简单的 json 文件,将其转换为数据帧,并对数据帧进行循环并进行一些验证等... 这是我的代码的一部分: Bucket_name = 'julio-s3' json_so...

回答 1 投票 0

从 Databricks 工作区读取 json 文件

我在这里使用 Databricks 官方文档中的第二个示例:使用工作区文件。但我收到以下错误: 问题:导致该错误的原因可能是什么,我们该如何解决? ...

回答 1 投票 0

如何在pyspark中用字典替换单行中的多个值?

我有一个专栏叫水果。每行的格式为 ["apple","banana","mango"]。我有一本包含 {oldvalue:newvalue} 的字典。我想更换appl...

回答 1 投票 0

将 json 转换为数据框的最佳方法是什么?

我有一个关于将此 JSON 转换为 Dataframe 的最佳方法的问题: Json数据: { “我的模式”:{ “账户”:{ "load_type": "每日&quo...

回答 1 投票 0

pandas.spark 中的系列等效项

我有一个用pandas编写的脚本,我需要将其移植到apche Spark(pyspark)中。我已经完成了所有其他的事情,但我似乎找不到一种方法将 pandas 系列转换为 Spark。例如,

回答 1 投票 0

如何使用 PySpark 处理单列中的多种日期格式?

我正在 PySpark 中使用一个 DataFrame,其中包含一个名为 datdoc 的列,该列具有多种日期格式,如下所示: 数据文档 24 年 9 月 7 日 2024 年 9 月 7 日 2024 年 9 月 7 日 2024 年 9 月 7 日 24 年 9 月 7 日 2 月 7 日...

回答 1 投票 0

如何在pyspark中加载databricks包dbutils

我试图在 pyspark 中运行以下代码。 dbutils.widgets.text('配置', '', '配置') 它给我一个错误说 回溯(最近一次调用最后一次): 文件“”,第 1 行...

回答 6 投票 0

Pyspark:如何获取当前月份的所有月份?

在pyspark中,我有这张表,我想获取过去几个月到当前月份的所有数据='九月' 一月 二月 行进 四月 可能 六月 七月 八月 九月 十月 十一月 十二月 10 20 30 ...

回答 1 投票 0

检查 Blob 存储中的文件是否为 MMDDYYYY 格式

我有一个来自 blob 存储的文件 新文件 = Supervisor_08292024_095618.csv 我想检查日期是否采用 MMDDYYYY 格式。 我尝试创建正确的文件名模式的模式: 模式 1 = r'

回答 1 投票 0

找不到pyspark测试模块

虽然,在 github 的源代码中我看到 pyspark.testing 模块存在,但是,我的本地环境抛出错误,指出找不到 pyspark.testing 。 https://github.com/apache/spark/blob/

回答 1 投票 0

Airflow GlueJob 操作员创建 Python2 作业

我正在尝试使用以下代码从 Apache Airflow 运行 Glue 作业: 以 TaskGroup(group_id= DAG_NAME + '_group', dag=dag) 作为 tg: 对于 jobs_params 中的工作: 胶水 = GlueJobOperator( ...

回答 1 投票 0

PySpark 到_timestamp 时区转换

据此,to_timestamp 将其转换为本地计算机的时区。 我的机器时区是UTC。 运行此命令时: 选择 to_timestamp("2024-09-20 19-00-00+0530","yyyy-MM-dd HH...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.