数据框是表格数据结构。通常,它包含数据,其中行是观察值,列是各种类型的变量。虽然“数据框架”或“数据框架”是这个概念用于多种语言的术语(R,Apache Spark,deedle,Maple,Python中的pandas库和Julia中的DataFrames库),“table”是用于的术语MATLAB和SQL。
如何将 DataFrame 拆分为同样是 DataFrame 的行?
假设我们有一个包含 N 行的 DataFrame df。我想要实现的是将 df 拆分为 N 个 DataFrame 的列表,每个 DataFrame 代表 df 中的一行。 我怎样才能做到这一点?
这两个data.frame有什么区别?为什么我可以在其中一个上运行 Swimmer_plot 而不能在另一个上运行 Swimmer_plot? 当我在 ClinicalTrial.Arm data.frame 上运行 Swimmer_plot 时,它工作正常。如果我替代...
如何获取一行DataFrame,使得该行也是一个DataFrame?
假设我有: 原始数据 = [ [(“姓名”:“鲍勃”),(“年龄”:26)], [(“姓名”:“爱丽丝”),(“年龄”:29)] ]
尝试将架构应用于 JSON 数据时,SPARK 数据框返回 null
我正在使用 SPARK Java API 读取文本文件,将其转换为 JSON,然后对其应用架构。架构可能会根据数据库中的映射表而有所不同,这就是为什么我需要首先转换...
如何在极坐标中创建附加列“weekofyear”、“month”和“dayofweek”?
我正在尝试从极坐标中的现有列名称创建其他列。 现有列名称是 starttime。此列包含日期时间。 开始时间 末日 存储ID 卷号 阿夫吉奥普斯...
我开始学习Polars是因为pandas的性能不足以完成我的任务,但在开始之前我想知道它是否能满足我的要求。 现在我有一个像这样的数据框 df...
使用 Pandas Dataframe 计算总损益 (PnL)
我有这个 pandas 数据框,其中收盘价是收盘价,入场价是开仓的收盘价。当平仓时,入场价格将再次变为 NaN,直到 ano...
PyPolars,根据另一列中的值从列中获取值,无需 for 循环
使用 PyPolars 我正在尝试创建一个新列,其中包含根据条件从多个列中选择的列的值。 该条件用字典表示。下面的代码应该是...
我想有效地找到从当前行到上一次出现的距离。我知道极坐标没有索引,但公式大致是: 如果先验发生{ (当前_行_i...
使用 Python 和 Polars 对具有多个列的数据框进行排序
我有一个数据排序问题,其中原始数据由三个“块”组成,其中包含一个“父”行和两个“子”行。最小工作示例如下所示: 将极坐标导入为 pl
如何使用 cum_fold 或 cum_reduce 创建有状态列
我正在尝试创建一个列,该列会针对目标列中的每个 1/True 更改其值,并保留先前的 0/False 值。例如如何从中得到 a = pl.DataFrame({'a': [1, 0, 0, 0...
我有一个数据框,其中列出了列值,并且想要找到两列之间的差异。 数据={'姓名':['约翰','玛丽','查理'], 'A':[[1,2,3],[2,3,4],[3,4,5]], 'B':[[...
如何在列中添加 1 年? 我尝试过使用地图和应用,但失败得很惨。 我还想知道为什么 pl.date() 接受整数,而它宣称它只接受 str 或 pli.Expr。 一个...
使用 df.iterrows() 迭代时如何检查我是否在最后一行?
如何在使用 df.itterows() 迭代行时检查我是否位于最后一行? 我的代码: 对于索引,df.iterrows() 中的行: ... # 我想检查 df iterrows() 中的最后一行。有点像...
MultiIndex 上的 Pandas set_levels:级别值必须是唯一的
给定一个 DataFrame df 价值 类别 池类 1.0 1.0 1 9.0 2 B 1.0 1.0 3 C 1.0 1.0 4 5.0 ...
Python Polars 中是否有类似 pandas 中“transform”的函数?
在pandas中,我可以使用transform来生成codeindex列: day = ['day1','day2','day3','day4','day1','day2','day3','day1','day2'] 代码 = ["a","a","a","a&qu...
我有一个数据框,其中的列值是列表,并且想要找到两列之间的差异,或者换句话说,我想找到A列中不存在于列中的所有元素...
我在数据集中有一列,如下所示: 集群ID 1 1 1 1 不适用 1 不适用 不适用 2 不适用 2 钠 3 不适用 不适用 3 集群 ID <- c("1","1","1","1","NA","1&...
我有两个包含一些日志数据的 DataFrame,我们称它们为 CorrectData 和 WrongData 每行有多个列。我无法按列值对数据帧进行排序。我需要一种方法来获取冷杉......
我有一个包含数百万行的基因组间隔的 df 例如: 染色体起始端 1 300 500 1 400 600 ………… 找到每个间隔的中心...