数据框是表格数据结构。通常,它包含数据,其中行是观察值,列是各种类型的变量。虽然“数据框架”或“数据框架”是这个概念用于多种语言的术语(R,Apache Spark,deedle,Maple,Python中的pandas库和Julia中的DataFrames库),“table”是用于的术语MATLAB和SQL。
使用 groupby 前向填充极坐标数据帧仅对某些列进行上采样?
使用 Polars 进行上采样时是否可以仅 fill_forward 某些列? 例如,想要填写示例数据框中缺少的日期(请参见下面的代码)。 “上采样”和“前向填充”
我可能在问一个容易解决的问题,但我已经尝试了几个小时但没有运气。正如您将看到的,我有一个非常简单的数据集。当我点击“数据”并点击 Control+Enter 时...
我有三个数据框,按年份描述某些标签的频率。每个 DF 具有相同的列标题,但其中一个缺少 1+ 列,因为频率为零,而一行则因为 t...
{gtExtras} 列在分组时在 {gt} 表中显示的顺序错误
我正在制作一个 gt 表格,显示个人实现目标的进度。表中的一行显示了实现该目标的进度的水平条形图(如果目标为 50,得分为 40,...
我正在使用类树和“rpart”库进行预测,当我进行“预测”时,我会得到一个包含概率及其测试数据可以采用的值/类别的表,并且我...
有两个表,table_a和table_b。一个表具有每月数据,而另一个表具有年度数据(尽管两个表都有“年份”列/两个表可能具有不同的年份范围)。
如何基于一系列子集在数据帧上创建表函数 - 然后可视化结果表的特定值?
我有很多数据集: df 作为主要数据框(但让我们将它们想象为非常大的数据集) df = data.frame(x = seq(1,20,2), y = c('a','a','b','c','a','a','b','c','a','a'), z = c('d...
如何以简单的方式使用特定变量组合创建许多带有百分比列的频率表?
我有这个数据框(让我们想象它有数十个变量) 设置.种子(505) df = data.frame(age_group = c(1,2,1,1,1,1,1,2,2,2,2,3,3,2,1,2,3), 分数 = trunc(runif(17,0,5)), ...
如何以一种简单的方式将多个数据帧从 R 导入到一个 Excel 文件中?
我有这个数据集(让我们想象它有 900 个变量) df = data.frame(x = c(1,0,0,0,1,1,1), y = c(2,2,2,2,3,3,2) ) l1 = lapply(df,表) l2 = lapply(l1,as.data.frame) 我创建了一个列表
我有这个列表(我们只关心它是 2 个表的列表) 设置.种子(222) df = data.frame(x = trunc(runif(10,0,2)), y = trunc(runif(10,4,6)), z = trunc(runif(10,19,...
“DataFrame.at[source]:TypeError:仅整数标量数组可以转换为标量索引”是什么意思?
搜索“dataframe.at TypeError:只有整数标量数组可以转换为标量索引”的答案,结果是“我们找不到 dataframe.at typeerror 的任何内容:...
我在 Python Polars 中收到未知错误: 线程“”因“断言失败:‘(左==右)’而惊慌失措” 左:`Float64[NaN, 1, NaN, NaN, NaN, ...[剪辑]... 右:`Float64[NaN, 1...
我想对具有两个类别列的极坐标数据框进行多列排序,但没有得到预期的结果。最终排序的数据框应该按第一列排序,遵循...
我正在使用Python X 是具有这些值的数据框 在[29]中:X 输出[29]: 重复ID 76758 207355 5787 15900 101140 273993 96040 260308 82096 221946 65858 178020 40664 109821...
这是两个数据框: time_start = datetime.datetime.strptime('2024-02-01 10:00:00', "%Y-%m-%d %H:%M:%S") 间隔_l = [1, 7, 14, 17, 21, 22, 31] df_l = pd.DataFrame(index = [time_s...
我可以使用以下方法对数据进行长格式化: tidyr::pivot_longer(DATA, m:y, value_to= "z", names_to= "variable") ,它会在我的 Desired_output 中生成拉长的变量。 但我想知道...
我有一个包含学生 ID、TestingWindow 和 BenchmarkCategories 的数据表。 TestWindow 的值为“年初”或“年末”。测试数据的值很紧急
极坐标中的“DataFrame.group_by*”是否保留每个组内行的原始顺序?
更新:这是由 pull/9879 添加到文档中的 在每个组中,无论此参数如何,行的顺序始终保留。 该文档提到有一些参数可以使组成为...
我开始使用极坐标,并且仍在学习语法。 我想实现一个groupby,然后是一个交叉连接(笛卡尔积),我想在每个组合之间运行计算
我有一个数据框例如 df = pd.DataFrame([(np.nan, .32), (.01, np.nan), (np.nan, np.nan), (.21, .18)], 列=['A','B']) 甲乙 0 南 0.32 1 0.01 南 ...