数据框是表格数据结构。通常,它包含数据,其中行是观察值,列是各种类型的变量。虽然“数据框架”或“数据框架”是这个概念用于多种语言的术语(R,Apache Spark,deedle,Maple,Python中的pandas库和Julia中的DataFrames库),“table”是用于的术语MATLAB和SQL。
我正在使用.apply将一个名为petrol ['tax']的数据帧的列传递给函数,该函数返回第一个四分位数。我试图使用下面的代码,但它抛出这个错误'浮动'对象没有...
我想使用自定义函数应用替换数据框中的值。如果age小于或等于3,我想用字符串legal替换var1和var2。否则该行应该留下......
我有一个名为data.txt的文本文件,其中包含表格数据,如下所示:PERIOD CHANNELS 1 2 3 4 5 0 1.51 1.61 1.94 2.13 1.95 5 ...
我正在尝试从现有数据框创建一个新数据框:我的新数据框(new_dataframe)将包含两个特定类别(c1 ...)的特定年份(2017年)的月度购买数量
在Spark中使用不同标头在DataFrame中导入多个csv
我有多个Csv,每个人都像这样变量:cloudiness.csv + --- + --- + ---------- + ---------------- --- + | _c0 | ID |混浊|日期时间| + --- + --- + ---------- + -----------...
我想在R中将两张桌子组合在一起。表格如下: - table1 TID日期时间项目T01 9/1/10 10:00 pm Bag T01 9/1/10 10:00 pm Tea T01 9/1/10 10 :00pm Pen T02 9 / ...
在对具有相同索引名称的行进行分组并忽略Nan时,仅采用DataFrame中每行的特定值的平均值?
如果我有一个DataFrame,我想要对具有相同索引名称的行进行分组,请说:abcc 2 1 - c nan 2 - d 4 3 - e 5 4 - d 6 5 - 我想合并具有相同列名的行, ...
是否可以在这样的多索引数据帧上计算运行标准差(SD)?价值SD符号日期ABC 19APR2017 35.43 0.00 ...
下面我有数据框,想要找到一个特殊事件的位置,并计算这个特殊事件(警报)和两个下一个连续项目,id日期之间的时差...
我已经研究并测试了一整天这样做的方法,虽然我发现了一些有一定帮助的主题,但到目前为止还没有100%的工作。我在Python中找到了信息......
Python基于另一个具有较少变量的DataFrame从DataFrame中删除行
我有这样的df1:id 1 2 3 4 5 0 1 1 0 0 0 1 1 0 1 0 0 2 1 0 0 0 1我有这个值的df(更少的列,更少的情况):id 1 2 5 0 1 1 0 1 1 0 1我会......
我想采取以下数据帧(df):Team Group1 Group2 Group3 green 1 5 -6 blue -3 10 5 red -7 9 -8并应用此格式...
我有一个数据框,其中id可以有多个事件类型> head(eventtype,10)id event_type 1 6597 event_type 11 2 8011 event_type 15 3 2597 event_type 15 4 5022 event_type 15 ...
我想比较所有行的特定列,如果它们是唯一的,则将值提取到新列,否则为0.如果示例日期帧如下:A B C D E F 13348 ...
我从Scopus得到了一个逗号分隔的csv文件。文件的每一行都有这样的结构:“A,B,C,D”,“1111; 2222; 3333; 4444;”,“A,B,C”,1111,“ABCDE”,“XYZ”,, , “338”, “347” ,,, “11.10000 / 111-2-642-35236-2_34”,...
我有一个数据集BDate,Snum,ArrTime,OID,TDate,TTime,VID 1/1 / 2018,72,05:59:01,7214,1 / 1/2018,12:06:20 AM,7206 1 / 1 / 2018,72,06:04:33,7208,1 / 1 / 2018,12:36:31 AM,7205 1/1 / 2018,72,06:21:07,7216,1 / 1/2018, 5:...
我正在尝试使用具有多个列标题的时间序列数据创建数据帧,但我是python和pandas的新手。数据框是一小时数据下降和100万服务点....
如何使用1000长度的pandas创建新数据框并使用for循环分配值。我试过这种方式。但它不起作用。 f = {'ID':[],'CSE':[],'课程名称':[]} ff = pd.DataFrame(...
我有一个时间序列数据,比如机器读数如下(Say)df ['machine_r'] = [1,2,1,5,3,4,5,1,2,3,4,5,7,8 ,1,2 .....如何更改数据框如下如果数据框中的数据<= 25 ...