dataframe 相关问题

数据框是表格数据结构。通常,它包含数据,其中行是观察值,列是各种类型的变量。虽然“数据框架”或“数据框架”是这个概念用于多种语言的术语(R,Apache Spark,deedle,Maple,Python中的pandas库和Julia中的DataFrames库),“table”是用于的术语MATLAB和SQL。

无法在python中将文本数据读入pandas数据帧

我正在尝试从Pandas中读取文本数据:使用if条件不能按预期工作到数据帧中填充列。我的代码是:dftxt =“”“0 1 2 1 10/1/2016'...

回答 1 投票 1

保存和加载data.frames

我已经根据以下形式的一组推文制作了一个数据帧:rdm Tweets

回答 3 投票 24

Pyspark:如何使用其他数据框创建数据框

我正在使用PySpark v1.6.1并且我想使用另一个创建数据框:转换在不同列中具有三个值结构的字段将时间戳从字符串转换为数据时间...

回答 1 投票 1

在熊猫中简单的交叉制表

我偶然发现了大熊猫,它看起来很适合我想做的简单计算。我有一个SAS背景,并且认为它取代了proc freq - 看起来它可以扩展到我想要的......

回答 2 投票 22

python pandas多级索引 - 添加新列

我一直在使用面板来代替具有多级索引的数据帧,因为它们对于大型数据集来说似乎更快。但我现在正在转向Midx框架。有了面板,我可以这样做......

回答 1 投票 3

如何分组并得到具有X max的Y列的值?

我有一个以前没见过的用例。我有以下数据框,并希望选择“y”的值,其中“x”分别达到每个级别的最小值和最大值...

回答 4 投票 3

如何使用loc和iloc的组合选择索引

我有一个按时间排序的时间排序数据集,如下所示:结果2009-09-08正面2009-08-24负面2009-06-01正面2009-04-23正面2008-12-06正面...... ..

回答 2 投票 0

在pyspark中将流水线RDD转换为Dataframe时出错[复制]

我试图将下面的流水线RDD转换为数据帧。流水线RDD - > user_rdd ['new_user1','new_user2','Onlyknows','Icetea','_ coldcoffee_']我试图使用以下转换...

回答 1 投票 0

R Caret:NA没有缺失值时的错误

我正在尝试为没有缺失值的数据集运行分类算法。这是数据集描述:'data.frame':59977 obs。 6个变量:$性别:因子w / 2 ...

回答 1 投票 0

替换数据框的每列的特殊值

如果我想用-100替换我的数据框的所有列的所有负值以及(999,9991,9992,9996)的值,我该怎么做。我想将它保存为新的数据框而不是......

回答 1 投票 0

将DataFrame保存到csv但输出单元格类型变为数字而不是文本

导入pandas为pd check = pd.read_csv('1.csv')nocheck = check ['CUSIP']。str [: - 1] nocheck = nocheck.to_frame()nocheck ['CUSIP'] = nocheck ['CUSIP' ] .astype(str)nocheck.to_csv('NoCheck.csv')这......

回答 1 投票 -2

Python Dataframes没有合并索引

我正在尝试合并2个数据帧,但由于某种原因,它正在抛出KeyError:Player_Id我正在尝试合并Striker_Id和Player_Id这就是我的Dataframe看起来像Merge Code:player_runs ....

回答 2 投票 2

切片Pandas数据帧非单调索引

我正在尝试切片DataFrame以返回时间序列的特定部分。然而,这个时间是由一周给我带来麻烦的。 df第一周二0 12/3/2017 0 7 1 ...

回答 1 投票 2

数据帧中连续零的计数

以下是我的数据框。它有行名和列名。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 row1 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 row2 0 0 0 1 1 1 1 1 1 1 1 1 1 0我愿意。 ..

回答 2 投票 0

使用Pandas将当天的第一个值分配给当天的其余行

请问,我有一个包含2只股票的日内数据的熊猫数据框。该指数是按分钟抽样的时间序列(即1/1/2017 9:30,1 / 1/2017 9:31,1 / 1/1 9:32,......)。只有两个......

回答 1 投票 0

通过R中的模糊多对一字符串匹配来匹配两个数据集

我有两个大的数据集(每个500k obs),我想通过模糊字符串匹配个人的名字,但也利用其他变量的信息。问题类似于......

回答 1 投票 2

将JSON文件转换为pyspark数据帧,然后转换为RDD

我有一个以下格式的json文件,我将其转换为pyspark Dataframe。转换后的数据帧如下。以下是推文数据框:+ ------------- + -------------------- + ------- ----------...

回答 2 投票 -1

根据最后一列上的条件过滤R中的数据帧,无需硬编码列名

下面是我的数据框。 name m d1 d2 d3 d4 d5 name1 m1 45 18 69 35 20 name2 m2 34 19 16 25 0 name3 m3 18 38 0 66 29 name4 m4 52 9 58 84 0 name5 m5 45 75 76 ...

回答 1 投票 0

保留重复删除的唯一值

有一个重复数据框(只有一列),如下所示:df

回答 3 投票 0

使用字符值填充数据框中的新列的逻辑操作

我有一个关于各国宽带数据的数据框(以AT_df为例)。 “ofTV”和“ofWithFT”列是类型字符,表示每个案例(宽带提供)是否来......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.