数据框是表格数据结构。通常,它包含数据,其中行是观察值,列是各种类型的变量。虽然“数据框架”或“数据框架”是这个概念用于多种语言的术语(R,Apache Spark,deedle,Maple,Python中的pandas库和Julia中的DataFrames库),“table”是用于的术语MATLAB和SQL。
我正在尝试计算一段时间内库存的余额(水平),并将进货和出库数量作为输入(以及每种库存类型的类别)。通常我会计算
我有以下融化的示例数据框: df_融化<- data.frame(ID = c(21, 21, 21, 21, 49, 49, 49, 49), instance = c(1, 1, 1, 1, 1, 1, 2, 2), variable = c("causeofdeath", "
我有一个有 100 列的 pandas 数据框。第一个列是字符串,其余的都是整数。我想删除 int 列包含超出范围的值的任何行(小于 0 或 gre...
如何更改图例中的列? 我目前默认显示 Y 列的值。 我只想更改图例中的值 - 这样只有来自...的值
我正在尝试使用 pyspark.sql.functions.when 和之后基于条件逻辑在我的 PySpark DataFrame 中添加一个新列 CHANNEL_ID,删除不再是的旧列 Channel_id
我有RDD1 列 1 列 2 一个x123 通过y123 Cz123 RDD2 第 1 列 一个 C 我想运行两个 RDD 的交集并找到公共元素,即 RDD2 中的项目...的数据是什么?
如何在pandas中使用country_converter将国家/地区代码转换为名称
df 日期值代码 0 2020-03-12 7 AFG 1 2020-03-11 7 AFG ... 我如何从代码生成国家/地区?我尝试了从 CODE 生成代码
只是一个简单的问题:如果这些值存在于所有数据框的列中,如何将某些值替换为其他值?仅当指定列时,诸如映射值和重新编码之类的函数才有效...
有一个嵌套的 case 条件语句,我试图在 python 中找出它, 输入左表: 输入右表: 最终输出: 目标是创建“new_value”专栏...
我有一个如下所示的数据集: 审查 推荐 游戏名称 评论...好 受到推崇的 游戏1 评论...不好 不推荐 游戏1 最糟糕的游戏 不推荐 游戏1 审查...不
我有两个DataFrame(df和locations_df),并且都有经度和纬度值。我试图找到每行locations_df 2 公里范围内的df 点。 我尝试对函数进行矢量化...
我正在对数据集进行复杂的计算,需要根据前一行的总和重新计算。我会尽力表达清楚。 我有一个 n x n 数据集,我需要创建...
我正在从 MaxPreps(高中体育统计网站)抓取篮球统计数据。我成功将数据导入到我的vscode中,但是json数据巨大且混乱。我可以看到所有正确的数字并且
检查 Polars DataFrame 中的任何值是否为 True
这是一个非常简单的问题,但我似乎找不到任何明确的简单解决方案,感觉就像我错过了一些东西。 假设我有一个 DataFrame 类型 df = pl.from_repr("""...
如何在 pandas DataFrame.apply 调用中修补函数
我正在尝试为执行 pandas apply 的类编写一个测试。这是一个简化版本: 将 pandas 导入为 pd 类 Foo: def 栏(自身,行): 返回“酒吧” def 应用(
我有一些 Pandas 数据框,每个数据框有几百万行。数据帧包含包含 JSON 对象的列,每个列有 100 多个字段。我有一组 24 个函数,它们在
我的SQL已经生锈了。 我有一个像这样的数据框/表(部分显示,这只是一个示例,而不是真实数据): +--------------------+----------------+---+ | 时间戳|值|编号| +------------...
我想要一个新列,其中包含另一个 str/object 列中最频繁的滚动值。 日期 名称 状态 0 2024-02-29 爱丽丝 CA 1 2024-02-27 鲍勃 你好 2 ...
大家。 我在使用 Skin_csv 命令对大于内存的 LazyFrame 与极坐标进行排序时遇到内存问题。 我正在开发一个引擎,应该能够对多个内容进行合并和排序...
我有一个JSON文件要导入到R中。这是数据的一部分: {“数据”:[{“不列颠哥伦比亚省”:“BC”,“BC”:“4.63”},{“艾伯塔省”:“...