pyspark 相关问题

Spark Python API(PySpark)将apache-spark编程模型暴露给Python。

如何高效转换 Pyspark 数据框中的日期

我有一个 PySpark 数据框,约有 70 列和数千万行。 每个数据框都有几列包含日期(作为字符串)。有 3 种可能的日期格式 - yyyyMMdd、yyyy-MM-dd 和

回答 1 投票 0

如何使用window.partionBy()为Spark数据帧创建row_index?

我有一个带有单列的数据框,如下所示。 类型 '蝙蝠' '蝙蝠' '球' '蝙蝠' '球' '球' 在上面的数据框中,我添加了一个名为“const”的新列。 df = df.withColumn('const',F...

回答 2 投票 0

spark-submit 使用 --py-files 选项找不到模块路径

我正在尝试在 EMR 集群中提交 pyspark 作业。作业的代码位于放置在 S3 中的压缩包中: /bin/spark-提交 \ --py-files s3://my-dev/scripts/job-launchers/dev/pipeline....

回答 1 投票 0

在 PySpark 中创建当前余额列

我在 PySpark 代码中创建了以下数据框: +----------------+------------+----------------+--- ---+ |交易日期|账号|交易类型|金额| +----------------+------------+----...

回答 1 投票 0

使用 Pyspark 将共享点二进制文件复制到 OneLake

我正在尝试开发一个通用管道,能够将 Sharepoint Online 文件夹中包含的所有文件摄取到 OneLake Fabric 文件夹中,无需任何转换,这些文件的 1 对 1 副本...

回答 1 投票 0

在PySpark中尽可能多地发现匹配的id

我有一个 Spark DataFrame,比如 编号1 编号2 分数 A1 B1 9 A2 B1 9 A2 B2 7 A3 B2 5 我想在 PySpark 中找到最匹配的 id1/id2 ,输出是 编号1 编号2 A1 B1 A2 B2 挑战在于 Row(A2,...

回答 3 投票 0

基于城市的场馆名称模糊连接

我正在使用 PySpark,需要根据城市和场地名称的模糊匹配条件连接两个数据集。第一个数据集包含有关体育场的信息,包括唯一的

回答 1 投票 0

AES_DECRYPT pyspark SQL 中的 MYSQL AES_ENCRYPT 数据

MYSQL 中的数据以““´⁄´^-|”ªêãæ” 格式进行加密。 MYSQL 列定义是 栏目:移动 排序规则:latin1_swedish_ci 定义:varchar(16) 在 MYSQL 中解密我使用 CO...

回答 1 投票 0

为 Jupyter 创建 pyspark 内核

我正在考虑将 Apache Toree 用作 Jupyter 的 Pyspark 内核 https://github.com/apache/incubator-toree 然而它使用旧版本的 Spark(1.5.1 与当前的 1.6.0)。我尝试使用...

回答 2 投票 0

如何在 pyspark 中按字母顺序对嵌套结构的列进行排序?

我有以下架构的数据。我希望所有列都应按字母顺序排序。我想要它在 pyspark 数据框中。 根 |-- _id:字符串(可空 = true) |-- 名字:字符串(可空 =

回答 3 投票 0

架构验证 json

在 databricks 中的 pyspark 中对复杂嵌套 json 进行模式验证的最佳方法是什么。我当前的输入是一个数据框,其中一列为 json。 我正在尝试使用 Jsonschema libr...

回答 1 投票 0

PySpark 示例通过使用多列

我想对PySpark上的数据框进行分层采样。有一个sampleBy(col,fractions,seed=None)函数,但它似乎只使用一列作为层。有什么办法可以...

回答 2 投票 0

需要修复我的 Python、Pyspark 处理作业的时区问题

我在Postgres aurora“last_updated_timestamp”中有数据库列,它没有时区并且值为“2024-08-01 00:00:00” 当我执行 df.show() 时,我正在使用 pyspark df 获取该值 是

回答 1 投票 0

如何使用文本文件作为模板和数据框创建多个文件

大家好,今天我有一个挑战: 我需要使用文本文件作为模板创建多个将成为 python 函数的文件,我的模板将包含类似以下内容的内容: 我的模板.txt #文本为

回答 1 投票 0

发现 PySpark 中最匹配的 id

我有一个 Spark DataFrame,比如 编号1 编号2 分数 A1 B1 9 A2 B1 9 A2 B2 7 A3 B2 5 我想在 PySpark 中找到最匹配的 id1/id2 ,输出是 编号1 编号2 A1 B1 A2 B2 挑战在于 Row(A2,...

回答 1 投票 0

有没有办法将 pyspark 数据帧的模式作为 pythonic 结构返回?

我有一个 Pyspark Dataframe 和 df.schema.fields 返回此: [StructField(Id,StringType,true), StructField(Sub_l1,DoubleType,true), StructField(详细信息,ArrayType(StructType(列表(StructField(Sub_l5,

回答 2 投票 0

将字符串转换为数组<string>而不使用正则表达式

有没有一种方法可以在不使用正则表达式的情况下将 [R55, B66] 这样的字符串转换回数组? 设置 在此输出中,我们看到代码列是 StringType。输出需要 StringType...

回答 1 投票 0

PySpark:名称大写的新列意外删除

我正在尝试使用 pyspark.sql.functions.when 和之后基于条件逻辑在我的 PySpark DataFrame 中添加一个新列 CHANNEL_ID,删除不再是的旧列 Channel_id

回答 1 投票 0

处理 UDTF 内的 Snowpark 表 - 未找到会话

我创建了一个小型 udtf 来突出我当前的挑战。我需要根据某些参数处理不同的表(udtf 可以在任何时间点获取任何表)。 我正在通过...

回答 1 投票 0

PySpark 未从 Windows 命令提示符启动

我正在尝试从Windows cmd启动pyspark。但到目前为止还没有运气。我收到一条错误消息,如下所示。 我几乎翻遍了 stackoverflow 和网络搜索的每个角落,但还是没能...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.