dataframe 相关问题

数据框是表格数据结构。通常,它包含数据,其中行是观察值,列是各种类型的变量。虽然“数据框架”或“数据框架”是这个概念用于多种语言的术语(R,Apache Spark,deedle,Maple,Python中的pandas库和Julia中的DataFrames库),“table”是用于的术语MATLAB和SQL。

仅存在 NA 时具有特定字符的列的行总和

我有这个数据框 df <- data.frame(var1=c(NA, 3, 3, 4, 0), var2=c(NA, 2, 5, 3, NA), var3=c(NA, 3, 6, 6, NA), var4=c(NA, 1, 2, 14, NA)) df ...

回答 1 投票 0

以 gt/lt 条件作为键应用 pandas 字典

我创建了以下 pandas 数据框: ds = {'col1':[1,2,2,3,4,5,5,6,7,8]} df = pd.DataFrame(数据=ds) 数据框如下所示: 打印(df) 第 1 列 0 1 1 2 2 2 3 3 4 ...

回答 1 投票 0

使用多索引设计数据框并导出到Excel

我有一个像这样的数据框: df = pd.DataFrame({ '交易对手': ['foo', 'fizz', 'fizz', 'fizz', 'fizz'], '商品': ['酒吧', '酒吧', '酒吧', '酒吧', '酒吧'], '交易类型':['购买'...

回答 1 投票 0

将函数的结果保存在返回计数和ggplot的数据框中

我编写了一个函数,它返回一个包含数字(odchylka.sr)和ggplot对象(ggpl)的列表 模型.ARIMA.RF.fct <- function (l.obs.pomin) { ... wynik.lst <- list (odchylka.sr,...

回答 1 投票 0

Python 数据帧格式掩码,用于清理“-”等特殊字符之前和之后的自由格式数据

我正在将数据库中的表导出到 pandas 数据框中,并尝试实现格式掩码来清理列中保存的一些自由格式文本。 我想在数据框中创建一个新列

回答 1 投票 0

在巨大的 Spark 数据集上扩展 OSMNX 库的“nearest_edges”函数

我正在尝试使用纬度和长列作为创建我的 mutlid 的输入,在巨大的数据集上缩放从“nearest_edges”函数(来自 OSMNX 库)返回的距离值...

回答 1 投票 0

ewm_mean 忽略 nan [已关闭]

给定一系列可能的 NaN 值,如何告诉极坐标忽略 NaN 值?也就是说,将 NaN 值视为不在 DataFrame 中,并使用与...

回答 1 投票 0

如何转换一系列 Polars 数据框?

我正在处理一个大型数据帧(198,619 行 x 19,110 列),因此我使用 Polars 包读取 tsv 文件。熊猫需要太长时间。 然而,我现在面临一个我想要的问题

回答 1 投票 0

Pandas 应用函数根据输入大小表现不同?

我有一个可以与小型 Pandas Dataframe 配合使用的函数,并按预期返回调整结果, 但是当我将它应用到一个非测试数据框时,它只是一个小的 df (300 x 20),它得到

回答 1 投票 0

对列表中至少包含同一列中的一个公共元素的行进行分组,并聚合其他列

我有一个数据框,其中 1 列包含列表元素,1 列包含整数。我想对至少有一个共同元素的所有列表进行分组,然后聚合另一列。

回答 1 投票 0

使用groupby cumsum计算Pandas每年特定日期之后的成功次数

我有一个数据框,看起来像 日期 学生 ID 考试成绩 2020-12-24 1 79 2020年12月24日 3 100 2020-12-24 4 88 2021-01-19 1 ...

回答 1 投票 0

计算Polars百分比变化后的累积和?

导入极坐标为 pl url =“https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv” df = pl.read_csv(url) 变化=( df.with_columns(pl.col("萼片宽度&qu...

回答 1 投票 0

计算 pyspark 数据框中的逗号数量并排除双引号内的逗号

我在 pyspark 数据框列名称文本(单列)中存在以下字符串。 30,kusuo,6,18,97,42,"萨姆,K,卡兰",lmhYK,49,阿拉塔,51,34,3,49,75,39,pdwvW,54,7,63,12,25, 26、SJ12u、rUFU...

回答 1 投票 0

将逗号分隔的数据帧写入 pyspark 中具有多个命名列的增量格式

我有一个单列(详细信息)的数据框,有 100 万条记录,下面提到的一条记录的示例 30,Ness,42,"SAM,K,Clarke",英国,49,39,丹麦,54,7,"[email protected] ,Sam.

回答 1 投票 0

使用 R 数据帧进行多列透视/转置

我有这个数据框: my_df = tibble(name = c('年份','月份','汽车', '里程', '价格'), unk_1 = c('2020','一月','丰田', '1000', ' $200'), unk_2 = c('2024', '二月', '现代', '50', '$100'...

回答 2 投票 0

将 Spark 数据帧写入 csv 文件时出现“调用 o58.csv 时发生错误”错误

使用 df.write.csv 尝试将 Spark 数据帧导出到 csv 文件后,我收到以下错误消息: 〜\ AppData \ Local \ Programs \ Python \ Python39 \ lib \ site-packages \ py4j \ protocol.py 在

回答 3 投票 0

在 R 中将数据帧从一列跨多列旋转?

我有下面这个数据框: my_df = tibble(name = c('汽车', '里程', '年份'), unk_1 = c('丰田', '1000', '2022'), unk_2 = c('现代', '50', ‘2024’)) 列 unk_1 和 unk_2 是...

回答 1 投票 0

在 pyspark(不寻常的数据格式)中迭代/解析 df.collect() 的最佳方法是什么?

我正在使用 Databricks pyspark,读取 s3 对象,但它不是通常的 CSV。它在文件中间有标题和数据,所以我像这样读它。 df = (spark.read .format("文本&quo...

回答 1 投票 0

如何在没有内部数据的情况下让 pandas 合并

如何在没有内部数据的情况下使 pandas 合并? 输入: inner_df = pd.merge(df1, df2, on='用户', how='内部') external_df = pd.merge(df1, df2, on='用户', how='outer') 所以我不需要内部数据,我需要...

回答 1 投票 0

如何使用Pandas求最小值和Nan,然后打印结果

csv 数据 如何使用Pandas找出每组(Fan、LPC、HPC和HPT)中的最小值和Nan,然后打印结果 我对 python 很陌生,尝试使用 pandas 查找并打印

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.