dataframe 相关问题

数据框是表格数据结构。通常,它包含数据,其中行是观察值,列是各种类型的变量。虽然“数据框架”或“数据框架”是这个概念用于多种语言的术语(R,Apache Spark,deedle,Maple,Python中的pandas库和Julia中的DataFrames库),“table”是用于的术语MATLAB和SQL。

如何根据唯一 ID 的日期更改 orderred 数据帧中前一行值的条件下的行值?

我需要了解如何在 Spark 中执行此操作: 我的数据框是这样的 |ID | 日期 | 状态 |X | 2023 年 1 月 20 日 | 氮 |X | 2023 年 1 月 21 日 | S |X | 2023 年 1 月 22 日 | S |X | 2023 年 1 月 23 日 | ...

回答 1 投票 0

使用ddply进行汇总统计

我喜欢使用 ddply 编写一个函数,根据 data.frame mat 的两列名称输出摘要统计信息。 mat 是一个大数据框架,其列名称为“metric”、“length”、“

回答 3 投票 0

如何(更好)将 Pandas 数据帧中的 NaN 数据获取到新数据帧中?

我有一个数据框,目前正在创建一个新的数据框,其中包含列名称和空单元格数量,如下所示。 空 = pd.DataFrame(columns=['Column', 'NaNs']) 对于(列名,列数据)...

回答 1 投票 0

在 pandas 中检查特定列中的空白值和条件异常

在此输入图片描述查询1 我有一个包含 100 列的 CSV 文件。其中,我想检查以下列中的空白值: 银行和贸易代码 账面价值 业务单位 COE

回答 1 投票 0

如何对字符串进行分组和连接但跳过一组?

我有一张桌子,里面有人和他们所属的团体。它的格式如下: person_id <- c("A1", "A1", "A1", "A1", "A2", "A2", ...

回答 2 投票 0

Panda 的日期范围功能

我是Python和Pandas的新手,所以请原谅我这个看似简单的问题。我正在使用包含员工数据的本地文件。我想使用 TimeFrame 来过滤日期的特定列

回答 1 投票 0

根据超过 1 列比较两个数据帧并交付更改

所以考虑我有两个数据框: 旧信息: 姓名 ID 俱乐部号码 0 罗纳尔多 12414 阿尔纳斯尔 7 1 梅西 4344134 迈阿密 30 2 舍甫琴科 1234435 米兰 7 3

回答 1 投票 0

如何用线连接缺少值的数据点

我需要在一张图表上按日期绘制多个生物标志物变化,但生物标志物样本是在不同日期和不同时间测量的,因此例如: 数据 = { '患者 ID': [244651, 244651,

回答 1 投票 0

如何在pyspark中找到最高值计数行?

我有这个日期框 类型 p型 时间 长度 垃圾箱 数数 公元前 1 2023-07-02 18:07:28 8283 CB 1 公元前 1 2023-07-12 16:55:45 3402 7.2 3331 公元前 1 2023-07-02 18:07:28 8283 7.2 8209 公元前 1 2023-07-19 21:51:0...

回答 1 投票 0

我如何删除数据框中的数据?

我正在查找重复的预订 ID,然后尝试将其从电子表格中删除。这并没有发挥应有的作用。我哪里做错了? 我尝试使用 数据范围 = 文件 1[~文件 1['

回答 2 投票 0

检查最大滚动变化是否小于数据帧中的特定数字

我有一个股票价格时间序列的数据框,需要在任何时间点查看变化(无论是 pct_change(1)、pct_change(2)、...、pct_change(7) 是否较小)超过20%)。 逻辑...

回答 1 投票 0

如何在Python上读取csv数据集?

我尝试使用 pandas 库在 jupyter 笔记本中读取 python 上的 csv 数据集,但返回一条消息说我没有正确的文件或目录名。 将 pandas 导入为 pd ...

回答 1 投票 0

连接数据框中的行、列索引

我有一个像这样的数据框,第一列是索引(即索引= [1,2,3]): 1 2 3 1 0 0.43 0.61 2 0.88 0 0.12 3 0.33 0.95 0 新的数据框...

回答 2 投票 0

每个时间步长按行连接列

我的数据框如下,我想重新排列、更新并将其保存为 csv 或类似格式。 时间 纬度 经度 西线 西线 2023年1月1日 0:00 -5 107 8.214895 313.9049 202 年 1 月 1 日...

回答 1 投票 0

如何根据列的值在时间戳之间均匀分布 pandas 数据帧行

例如DF 包含跨时间戳的执行次数。 日期时间执行 0 2023-04-03 07:00:00 4 1 2023-04-03 10:00:00 1 2 2023-0...

回答 1 投票 0

如何合并来自 2 个不同 panda 数据帧的变量进行绘图?

我有第一个 CSV panda 数据框,如下所示: 报告日期 国家/地区 新病例数 累计病例数 0 2020年2月23日 新加坡 10 10 0 2020 年 3 月 26 日

回答 1 投票 0

将列中的元素分组为键后将 PySpark 数据框转换为字典

我有以下 PySpark 数据框: ID 价值 1 值-1 1 值-2 1 值-3 2 值-1 2 值-2 我想把它转换成字典: dict1 = {'1':['值-1','值-2','值-3'], '2':['值-...

回答 4 投票 0

如何显示带有数据框别名的Pyspark加入DataFrame的列名称?

假设我们在 pyspark 中加入 2 个数据帧,每个数据帧都有其别名,并且它们具有相同的列: join_df = source_df.alias("源").join(target_df.alias("目标"), \ ...

回答 2 投票 0

如何设置表格的默认背景颜色,然后根据单元格值应用自定义背景颜色?

我想设置整个表格的背景颜色,然后如果“DATA_PASS”列中的单元格为 false,则将背景颜色更改为红色。 以下是我的代码,我似乎无法...

回答 1 投票 0

使用 ID 变量对将数据帧从“宽”格式转换为“长”格式

这是我正在尝试做的一个例子。我从“宽”格式的数据框开始,如下所示。 #样本数据框 id_1 <- c(260, 500, 640, 720) id_2 <- c(261, 501, 641, 721)

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.