数据框是表格数据结构。通常,它包含数据,其中行是观察值,列是各种类型的变量。虽然“数据框架”或“数据框架”是这个概念用于多种语言的术语(R,Apache Spark,deedle,Maple,Python中的pandas库和Julia中的DataFrames库),“table”是用于的术语MATLAB和SQL。
Pandas groupby 对巨大数据帧的当前行之前的日期进行变换均值
我有一个 Pandas 数据框,看起来像 df = pd.DataFrame([['约翰', 'A', '1/1/2017', '10'], ['约翰', 'A', '2/2/2017', '15'], [“约翰”、“A”、“2017 年 2 月 2 日”、“20”],...
我已经编写了一个管道来向 uniprot 发送查询,但其中一个查询遇到了一个奇怪的问题。 我已将其放入下面的一个小测试用例中。 我得到了预期的数据帧 (df)
如何将 df 写入多个 csv 文件,使每个 csv 的大小不超过 5 mb
我想将一个包含超过 300,000 条记录的数据框写入 csv 文件。我尝试过根据块大小将数据帧写入多个文件的方法,这就是我正在做的: 春...
使用 Fernet 在同一个 Python 脚本中加密和解密
我正在尝试在将数据帧中的加密列发送给同事之前测试加密。 我试过: 加载_dotenv() Secret_key = os.getenv('secret_key') fernet_out = Fernet(secret_key) 定义
我有两个数据框: d1 = {“col1”:['A','B','C'], "Col2": ["家", "汽车","香蕉"]} d2 = {“col1”:['D','F','C'], &q...
根据 Pandas Dataframe 中组的最大值计算新列值
我有包含受试者列表+配药日期的数据框,一个受试者有多个配药日期,并且一个受试者的一个配药日期可能会出现多次。这是例子...
如何在 pandas 中对两个级别进行分组并按降序对值进行排序以选择每个组级别中的前 5 个
我有一个如下所示的数据框 实体名称 状态 店铺# 姓名 1 AL 1234 姓名 2 TX 4545 姓名 3 TX 6789 姓名 2 CA 0123 姓名 1 遗传算法 7654 姓名 1 遗传算法 8888 姓名 2 CA 9090 姓名 2 加州...
如何将所有公司值乘以“Total General”值,同时在 DataFrame 中保持“Total General”不变?
我有一个Python数据透视表,其结构如下。 我想创建一个新的 DataFrame,其中: 所有公司(Amazon、Chedraui、Jüsto、Rappi、Uber)的价值乘以相应的...
如何将泊松 CDF 编写为 Python Polars 表达式
我有一组极坐标表达式,用于为 ML 模型生成特征。我想向该集合添加 poission cdf 功能,同时保持延迟执行(有好处......
使用np.where基于滚动窗口计算更新pandas数据框列
我有下面的代码,可以根据列“A”的滚动窗口计算将数据框列“标志”更新为是或否(“A”中的滚动窗口值应具有最小值> 100 a。 ..
我有一个 xml 文件,需要访问特定部分。 我通过以下方式接近它: 从 lxml 导入对象化 路径 = xml_path xml = objectify.parse(打开(路径)) 根 = xml.getroot() # 访问列表...
将带有字典对象的 pandas 数据框转换为带有对象类型的 Polars 数据框
我有一个带有一列字典的 pandas 数据框。我想将其转换为带有 dtype Polars.Object 的极坐标数据框,它显然包装了任意 Python 对象。我想不通...
我正在尝试填充组上的空时间戳,我的数据框看起来像这样 df = pl.from_repr(""" ┌────────────────────────────────────┬────────────── ──────────────────────┬────────┐ │...
我想更新一个极地库数据框, 我用于此目的的 Polars 语法/命令: df[0, 'A'] = '某个值' 但上面的代码给出了一个错误: ValueError:无法将列表/元组设置为
Python-polars:快速将数据帧列中的列表转换为集合
我有一个巨大的数据框。在 group_by 操作之后,我有一个与第一列的每个元素相对应的字符串列表。我需要的是能够快速找到之间的共同字符串...
我有这个疑问,通常数据集的 Age 列值采用 int 或 float 数据类型(例如泰坦尼克号)。 因此,假设该列具有所有浮点值,您应该将它们全部转换为 int 还是顺其自然......
我想在python中合并一些'n'表。每个表有 2 列。目前,我正在尝试使用这 3 个表(table12、table13、table23)。 上下文:我有某些图像文件,每个图像都有...
我有以下数据框: 将 pandas 导入为 pd data = {'姓名': ['Ankit', '阿米特', '艾西瓦娅', 'Priyanka','Kovacs','Tompos'], ‘年龄’: [21, 19, 20, 18, 20, 19], '...
我有 2 个数据帧(df1 和 df2),它们看起来像这样: df1 索引 gameID Team A B C 0 0001 湖人队 10 100 90 1 0001 快船 20 105 91 ...
我正在尝试使用 python Polars 将多列合并为 1 列。然而,我似乎没有找到一种(优雅的)方法将列组合到列表中。 我只需要将 b - e 列合并为 1 列...