dask-dataframe 相关问题


将多个 csv.gz 文件读取到 dask 数据帧中

我有多个 .csv.gz 文件,我正在尝试将其读入 dask 数据帧,我能够使用以下代码实现此目的: file_paths = glob.glob(file_pattern) @延迟 def read_csv(文件路径):


Spark:坚持没有按预期工作

我使用了 PySpark DataFrame,在其中调用了 UDF 函数。此 UDF 函数进行 API 调用并将响应存储回 DataFrame。我的目标是存储 DataFrame 并在...中重用它


Snowpark DataFrame:为什么同一个类方法有这么多同义词?

我怀疑这一定是为了向后兼容。我只是想找出背后的原因。 Snowpark DataFrame API 的灵感来自 Apache Spark DataFrame API。 但为什么...


读取文件csv并与多个worker、dask.distributed、dask.dataframe进行聚合

我有服务器 IP:192.168.33.10 启动 schudeler dask 调度程序 --host 0.0.0.0 这是该服务器中的主机,我有文件“/var/shared/job_skills.csv”,工作人员是 192.168.33.11,...


如何验证 Polars DataFrame 中是否存在具有相应数据类型的特定列?

我想验证给定的 Polars DataFrame 中是否存在具有数据类型的特定列。 Polars DataFrame 可能有额外的列。我知道 Patito 用于极地数据验证。但是


编辑嵌套到嵌套到结构体的数组中的列

如何通过应用 example_loop 函数来编辑 DataFrame 的 I 列? 从 pyspark.sql 导入 DataFrame、SparkSession 从 pyspark.sql.functions 导入 col, udf 来自 pyspark.sql.t...


Dask 与简单的顺序应用程序:将无限数据写入单个 NetCDF

我需要将所有无限制(目前已增长 1TB)数据导出到单个 NetCDF4 文件。 完整的 ETL 包括: 各种计算 然后将所有结果写入单个 NetCDF 文件


计算错误:从数据创建 Polars DataFrame 时无法附加值

我在尝试从数据创建 Polars DataFrame 时遇到了 ComputeError。错误信息是: ComputeError:无法将类型为 f64 的值:1.41431 添加到构建器;确保...


如何使用 Numpy dtypes 将二进制文件读入 Pandas DataFrame?

我想删除通过使用 Numpy.dtype 模板读取二进制文件生成的 DataFrame 中的行。我使用了多种方法删除一行并继续被呃......


如何在 for 循环中将 np.arrays 连接到 DataFrame 中?

将 np.arrays 附加到 DataFrame 时出现错误。每个 np.array 都有不同的长度,因此 np.vstack 将不起作用。处理这个问题的最佳方法是什么? 另外,“y”必须是...


Polars DataFrame 数据透视表以 List[str] 作为数据类型

数据 = {“错误”:[[“x”,“z”],无,[“x”,“z”],无], “X”:[“x”,“p”,“x”,“p”], &qu...


DataFrame 到 XML 的转换:Pandas 中的价格值乘法问题

我在 Python 中使用 pandas 时遇到问题。我有一个脚本,用于接收包含产品详细信息、价格和其他信息的 DataFrame。我的目标是转换这个 DataFr...


DataFrame 中所选列的每个唯一值与其他列的每个唯一组合的比例

我有一个列数可变的 DataFrame。我需要计算所选列的每个唯一值与其他列的每个唯一组合的比例。例如: 导入 numpy ...


追加到 Dataframe 内的 Dataframe 会导致 nan

对于我的教育硕士论文,我想对互联网进行一个非常简化的模拟。我正在创建一个快速而肮脏的 python 文件来为 AS 创建 JSON 文件。 对于创作我有一个


有没有办法将图像的内容(存储在spark Dataframe中)与pyspark并行写入文件?

我有一个 Spark Dataframe,其中每一行都包含两个项目:文件名(带有扩展名,例如 .jpg)和文件的内容(以字节为单位)。 我想写一个过程...


在 Python 中合并 DataFrame 列

我有一个特殊的数据框,称为 df 这是它的样子 RepID +Col01 +Col02 +Col03 -Col01 +Col04 +Col05 -Col03 -Col04 +Col06 -Col07 1 5 7 9 8 3 8...


在 Spark DataFrame python 中将二进制字符串的列转换为 int

所以我有一个数据框,其中有一列,如下所示: +----------+ |some_colum| +----------+ | 10| | 00| | 00| | 10| | 10| | 00| | 10| | 00| | ...


pandas 重新索引多重索引无法正常工作

我有一个 pandas(版本 1.0.5)DataFrame,具有两个级别的 MultiIndex,例如喜欢: mi = pd.MultiIndex.from_product((('a', 'c'), (5, 12))) np.随机.种子(123) df = pd.DataFrame(data=np.random.ran...


无法从 Snowpark 追加到 Snowflake 表

我想将 pandas DataFrame 插入 Snowflake 表中,但是我得到 存储过程执行错误:在存储过程中启动的作用域事务不完整,已回滚。 什...


Pandas - Lambda 内部应用以返回一行

我原本期望在 Pandas DataFrame 中的 apply 中使用 lambda 函数时获得整行,但看起来我得到了一个“单个元素”。 看那段代码: # 数据样本 评论_2 = pd。


Python 回测 Dataframe 形状错误问题

我正在运行以下代码并收到此错误 - ChatGPT 无法解决此问题。请帮忙。 这是代码: 将 pandas 导入为 pd 将 numpy 导入为 np 将 yfinance 导入为 yf 导入 matplotlib....


Pandas Dataframe 条件和操作

我被困在我正在处理的项目的一部分上,我有一个包含多个列的数据框,我想根据两个条件用另一列的值填充一列。 下面我尝试过


将 Fastq 文件直接读取到 Pandas Dataframe 中

我正在尝试将 Fastq 文件直接读入 pandas 数据帧,类似于下面的链接: 将 FASTQ 文件读入 Spark 数据帧 我到处搜索,但找不到可行的选择。 电流...


(非常)大的 QVD 文件到 pandas DataFrame

我尝试使用此工具将 QVD 文件加载到 pandas 数据帧,如下面的脚本所示。问题是它工作完美,但没有优化,而且它只提供了一种获取行的方法...


如何在绘图中制作包含两个连续条形的直方图?

我有以下代码: 将 pandas 导入为 pd 将 numpy 导入为 np 将 matplotlib.pyplot 导入为 plt # 示例数据(将其替换为您的实际 DataFrame) 数据 = { ‘CU’: [1.5, 2.3, 1.8, 3.2, 2....


将 Excel 日期列读取为不带时间部分的字符串

我在将 Excel 文件中的日期列读取到 Pandas DataFrame 时遇到问题。我的 Excel 工作表中的日期值格式为 DD-MM-YYYY(例如 05-03-2024),但是当我使用 pd 时。


使用 pandas dataframe 将时间序列中每个日期的行转置为列

我有一系列去年每个到期日和期限的互换时间序列数据 - 我希望使用 pandas 数据框将其转换为每天的简单网格(使用日期作为索引)(


Pandas to_datetime 方法在转换 Unix 时间戳时给出错误的年份

当使用 Pandas Dataframe 的 to_datetime 方法将从数据记录器收集的数据列中的 Unix 时间戳转换为格式化日期时间时,我得到了错误的年份 20 年。我已经检查过...


有没有办法在不使用collect()的情况下将数据帧值收集为列表

我面临着如何在不使用收集方法的情况下有效过滤 Spark DataFrame 的挑战,这可能会导致大型数据集上的性能问题。具体来说,我需要过滤


合并两个pandas DataFrame,结果在Airflow中为空(本地有效)

我有 2 个 dags,每个 dags 都会向 Airflow 中的 Xcom 发送一个 json。 最后一个 dag 将每个 json 将其转换为 pandas df 并合并它。 由于某种原因,它不起作用,我正在努力保持冷静。 #雪...


© www.soinside.com 2019 - 2024. All rights reserved.