多索引(也称为分层索引)允许在二维表格结构中操纵更高维数据。
import numpy as np import pandas as pd #generating sample data nsmpls = 10 smpls = [f'smpl{j}' for j in range(nsmpls)] nfeats = 5 feats = [f'feat{j}' for j in range(nfeats)] data = np.random.rand(nfeats, nsmpls) countries = ['France'] * 2 + ['UK'] * 3 + ['US'] * 5 df = pd.DataFrame(data, index=feats, columns=pd.MultiIndex.from_tuples(zip(countries, smpls))) df.to_csv('./data.tsv', sep='\t') #--------------------------------------------------------------------- #loading dataset df = pd.read_csv('./data.tsv', sep='\t', index_col=0, header=[0,1]) #extracting subset dg = df.xs('France', level=0, axis=1) print(dg.shape) #iterating for country, group in df.groupby(level=0, axis=1): print('#samples: {}'.format(group.shape[1]))
如何对整个Pandas MultiIndex进行字符串操作?
我有一个带有两级列索引的 pandas 数据框。 它是从电子表格中读取的,其中作者使用了大量空白来完成对齐等操作(例如,一列是 c...
我的目标、我期望实现它的方式以及会发生什么 我正在尝试对具有多索引列的 DataFrame 进行 groupby,使用系列(不带多索引)作为组的输入...
使用 pandas 2.2.3 运行下面的示例代码片段时,我收到一条错误消息 KeyError: 'D' 索引 = pd.MultiIndex.from_tuples( [('A', 1), ('A', 2), ('A', 3), ('B', 1), ('B', 2), ('B',...
使用 .add(axis=1) 添加两个带有 + 的数据框列会产生 NaN,而使用 .add(axis=1) 会按预期工作吗?
我有一个数据框(此处输出:https://pastebin.com/7RCPsHet;可以使用 pd.DataFrame.from_dict(orient='tight') 读取),其中包含我想要总计的两列。它们看起来像: 分层...
我有一个具有多索引的数据框,如下所示 数组 = [ [“酒吧”,“酒吧”,“巴兹”,“巴兹”,“富”,“富”,“qux”,“qux”...
对于我给定的多索引 DataFrame: df = pd.DataFrame( np.random.randn(12), 索引=[ [1,1,2,3,4,4,5,5,6,6,7,8], [1,2,1,1,1,2,1,2,1,2,2,2], ] ) 0 1 1 1.667...
MultiIndex 上的 Pandas set_levels:级别值必须是唯一的
给定一个 DataFrame df 价值 类别 池类 1.0 1.0 1 9.0 2 B 1.0 1.0 3 C 1.0 1.0 4 5.0 ...
我有一个数据框如下。 df 输出[209]: 乙 User1 2019-07-01 [银河系] 2019-07-02 南 2019-07-03...
我有这个数据框: mu_post z c t 索引 a b 0 0.0 0.0 0.042824 0.051212 0.5 0.5 0.048293 0.058130 ...
我需要编写一个算法,需要 N 个点,并输出由这些点形成的所有可能的 3 星形和三角形。这是一个澄清的例子。 让N = 4,那么我有4个选择...
考虑以下数据框: 将 pandas 导入为 pd 数组 = [['A','A','B','B','C','C'],[1,1,3,3,5,5,],[2,2,4 ,4,6,6],[0.1,0.2,0.3,0.4,0.5,0.6]] 索引 = pd.MultiIndex.from_arrays(arrays,names=('Sa...
我有一个来自测量设备的 CSV 文件,它会生成一堆值(温度、雨和风)并提供设备的一些元数据: 车站,山坡 身份证号:12345 海拔, 54321 单位,...
我需要一种向数据框添加列级别的方法。 |一个 |乙| C |一个 |乙| C | 日期 2018 0 1 2 1 3 2 这就是我想做的: | 股票代码 1 | 股票代码 2 | |一个 | ...
我有以下数据框,映射“课程”和“课程”之间的一对多关系: course_id 课程名称 课程 ID 课程标题 0 0 ...