dataframe 相关问题

数据框是表格数据结构。通常,它包含数据,其中行是观察值,列是各种类型的变量。虽然“数据框架”或“数据框架”是这个概念用于多种语言的术语(R,Apache Spark,deedle,Maple,Python中的pandas库和Julia中的DataFrames库),“table”是用于的术语MATLAB和SQL。

条件覆盖的累积总和

我正在尝试计算一段时间内库存的余额(水平),并将进货和出库数量作为输入(以及每种库存类型的类别)。通常我会计算

回答 1 投票 0

如何使用指定的列对将数据框重塑为宽格式

我有以下融化的示例数据框: df_融化<- data.frame(ID = c(21, 21, 21, 21, 49, 49, 49, 49), instance = c(1, 1, 1, 1, 1, 1, 2, 2), variable = c("causeofdeath", "

回答 1 投票 0

如何从选定的列中过滤和删除 pandas 数据框中的行

我有一个有 100 列的 pandas 数据框。第一个列是字符串,其余的都是整数。我想删除 int 列包含超出范围的值的任何行(小于 0 或 gre...

回答 1 投票 0

如何更改 Plotly Python 图例中的列?

如何更改图例中的列? 我目前默认显示 Y 列的值。 我只想更改图例中的值 - 这样只有来自...的值

回答 1 投票 0

PySpark:名称大写的新列意外删除

我正在尝试使用 pyspark.sql.functions.when 和之后基于条件逻辑在我的 PySpark DataFrame 中添加一个新列 CHANNEL_ID,删除不再是的旧列 Channel_id

回答 1 投票 0

在spark执行中查找两个RDD之间的共同数据

我有RDD1 列 1 列 2 一个x123 通过y123 Cz123 RDD2 第 1 列 一个 C 我想运行两个 RDD 的交集并找到公共元素,即 RDD2 中的项目...的数据是什么?

回答 1 投票 0

如何在pandas中使用country_converter将国家/地区代码转换为名称

df 日期值代码 0 2020-03-12 7 AFG 1 2020-03-11 7 AFG ... 我如何从代码生成国家/地区?我尝试了从 CODE 生成代码

回答 2 投票 0

如何替换r中所有列中的值

只是一个简单的问题:如果这些值存在于所有数据框的列中,如何将某些值替换为其他值?仅当指定列时,诸如映射值和重新编码之类的函数才有效...

回答 3 投票 0

嵌套案例条件

有一个嵌套的 case 条件语句,我试图在 python 中找出它, 输入左表: 输入右表: 最终输出: 目标是创建“new_value”专栏...

回答 1 投票 0

如何比较DataFrame中两个分组列值的计数?

我有一个如下所示的数据集: 审查 推荐 游戏名称 评论...好 受到推崇的 游戏1 评论...不好 不推荐 游戏1 最糟糕的游戏 不推荐 游戏1 审查...不

回答 1 投票 0

如何使用两个DataFrame加速获取距离内的点?

我有两个DataFrame(df和locations_df),并且都有经度和纬度值。我试图找到每行locations_df 2 公里范围内的df 点。 我尝试对函数进行矢量化...

回答 1 投票 0

Python不循环重新计算多维数据集每一行的累加值?

我正在对数据集进行复杂的计算,需要根据前一行的总和重新计算。我会尽力表达清楚。 我有一个 n x n 数据集,我需要创建...

回答 1 投票 0

如何清理json文件成为Dataframe?

我正在从 MaxPreps(高中体育统计网站)抓取篮球统计数据。我成功将数据导入到我的vscode中,但是json数据巨大且混乱。我可以看到所有正确的数字并且

回答 1 投票 0

检查 Polars DataFrame 中的任何值是否为 True

这是一个非常简单的问题,但我似乎找不到任何明确的简单解决方案,感觉就像我错过了一些东西。 假设我有一个 DataFrame 类型 df = pl.from_repr("""...

回答 1 投票 0

如何在 pandas DataFrame.apply 调用中修补函数

我正在尝试为执行 pandas apply 的类编写一个测试。这是一个简化版本: 将 pandas 导入为 pd 类 Foo: def 栏(自身,行): 返回“酒吧” def 应用(

回答 1 投票 0

提高 Pandas 对于非常大的数据帧的性能?

我有一些 Pandas 数据框,每个数据框有几百万行。数据帧包含包含 JSON 对象的列,每个列有 100 多个字段。我有一组 24 个函数,它们在

回答 2 投票 0

SQL 按时间序列检索所有行的前一行值的总和

我的SQL已经生锈了。 我有一个像这样的数据框/表(部分显示,这只是一个示例,而不是真实数据): +--------------------+----------------+---+ | 时间戳|值|编号| +------------...

回答 2 投票 0

对象/str pandas 数据框列上最频繁的*滚动*值

我想要一个新列,其中包含另一个 str/object 列中最频繁的滚动值。 日期 名称 状态 0 2024-02-29 爱丽丝 CA 1 2024-02-27 鲍勃 你好 2 ...

回答 1 投票 0

使用极坐标排序大于内存文件的内存问题

大家。 我在使用 Skin_csv 命令对大于内存的 LazyFrame 与极坐标进行排序时遇到内存问题。 我正在开发一个引擎,应该能够对多个内容进行合并和排序...

回答 1 投票 0

如何使用一个嵌套列表将 JSON 数据导入到 R 中?

我有一个JSON文件要导入到R中。这是数据的一部分: {“数据”:[{“不列颠哥伦比亚省”:“BC”,“BC”:“4.63”},{“艾伯塔省”:“...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.