数据框是表格数据结构。通常,它包含数据,其中行是观察值,列是各种类型的变量。虽然“数据框架”或“数据框架”是这个概念用于多种语言的术语(R,Apache Spark,deedle,Maple,Python中的pandas库和Julia中的DataFrames库),“table”是用于的术语MATLAB和SQL。
如何基于一系列子集在数据帧上创建表函数 - 然后可视化结果表的特定值?
我有很多数据集: df 作为主要数据框(但让我们将它们想象为非常大的数据集) df = data.frame(x = seq(1,20,2), y = c('a','a','b','c','a','a','b','c','a','a'), z = c('d...
如何以简单的方式使用特定变量组合创建许多带有百分比列的频率表?
我有这个数据框(让我们想象它有数十个变量) 设置.种子(505) df = data.frame(age_group = c(1,2,1,1,1,1,1,2,2,2,2,3,3,2,1,2,3), 分数 = trunc(runif(17,0,5)), ...
如何以一种简单的方式将多个数据帧从 R 导入到一个 Excel 文件中?
我有这个数据集(让我们想象它有 900 个变量) df = data.frame(x = c(1,0,0,0,1,1,1), y = c(2,2,2,2,3,3,2) ) l1 = lapply(df,表) l2 = lapply(l1,as.data.frame) 我创建了一个列表
我有这个列表(我们只关心它是 2 个表的列表) 设置.种子(222) df = data.frame(x = trunc(runif(10,0,2)), y = trunc(runif(10,4,6)), z = trunc(runif(10,19,...
“DataFrame.at[source]:TypeError:仅整数标量数组可以转换为标量索引”是什么意思?
搜索“dataframe.at TypeError:只有整数标量数组可以转换为标量索引”的答案,结果是“我们找不到 dataframe.at typeerror 的任何内容:...
我在 Python Polars 中收到未知错误: 线程“”因“断言失败:‘(左==右)’而惊慌失措” 左:`Float64[NaN, 1, NaN, NaN, NaN, ...[剪辑]... 右:`Float64[NaN, 1...
我想对具有两个类别列的极坐标数据框进行多列排序,但没有得到预期的结果。最终排序的数据框应该按第一列排序,遵循...
我正在使用Python X 是具有这些值的数据框 在[29]中:X 输出[29]: 重复ID 76758 207355 5787 15900 101140 273993 96040 260308 82096 221946 65858 178020 40664 109821...
这是两个数据框: time_start = datetime.datetime.strptime('2024-02-01 10:00:00', "%Y-%m-%d %H:%M:%S") 间隔_l = [1, 7, 14, 17, 21, 22, 31] df_l = pd.DataFrame(index = [time_s...
我可以使用以下方法对数据进行长格式化: tidyr::pivot_longer(DATA, m:y, value_to= "z", names_to= "variable") ,它会在我的 Desired_output 中生成拉长的变量。 但我想知道...
我有一个包含学生 ID、TestingWindow 和 BenchmarkCategories 的数据表。 TestWindow 的值为“年初”或“年末”。测试数据的值很紧急
极坐标中的“DataFrame.group_by*”是否保留每个组内行的原始顺序?
更新:这是由 pull/9879 添加到文档中的 在每个组中,无论此参数如何,行的顺序始终保留。 该文档提到有一些参数可以使组成为...
我开始使用极坐标,并且仍在学习语法。 我想实现一个groupby,然后是一个交叉连接(笛卡尔积),我想在每个组合之间运行计算
我有一个数据框例如 df = pd.DataFrame([(np.nan, .32), (.01, np.nan), (np.nan, np.nan), (.21, .18)], 列=['A','B']) 甲乙 0 南 0.32 1 0.01 南 ...
有没有一种方法可以按大小组织一组行,然后在其中任何行彼此在特定阈值内时抛出一个标志?
我有一个数据集,当长时间旋转时看起来像这样 数据<-data.frame( ID=c("type1","type1","type1","type1","type1","type1","...
在分组数据框中添加自定义算术聚合以及 pandas/python 中的 .agg 函数
我是一名 R 用户,现在也在从头开始学习 Python。 我有这个样本数据框。 我想按名称和财政年度对 df 进行分组,然后添加销售额总和以及每月平均销售额...
我正在与极地斗争。我有一个数据框和一个 numpy 数组。我想减去它们。 将极坐标导入为 pl 将 pandas 导入为 pd df = pl.DataFrame(np.random.randn(6, 4), schema=['#', 'x'...
使用对应于同一名称的多个变体的唯一ID来统一pandas数据框中的名称的最有效方法
我正在对一个 DataFrame 进行一些数据分析,该 DataFrame 包含一些具有唯一 id 的列和一些具有某些名称的列,其中每个唯一 id 对应一个名称,“尽管相同的 id 可以对应......”
是否有比使用列表理解更快的方法将 csv 文件保存为极坐标数据帧?
我有 2 个文件夹,每个文件夹包含 1507 个 csv 文件,我使用以下代码使用列表理解将每个文件保存为极坐标数据框: bdsim=[pl.read_csv(x, schema_overrides = {"X0.6...
如何将字符串日期时间表示转换为pandas中的日期时间字段?
我有一个 csv ,其中包含文本数据(示例如下)。 编号 | 名称 | 日期 123 | 123 ABC | 2024-08-05T21:00:26:074Z 456 | 456 EFG | 2024-08-05T21:34:30.502z 我想...