dataframe 相关问题

数据框是表格数据结构。通常,它包含数据,其中行是观察值,列是各种类型的变量。虽然“数据框架”或“数据框架”是这个概念用于多种语言的术语(R,Apache Spark,deedle,Maple,Python中的pandas库和Julia中的DataFrames库),“table”是用于的术语MATLAB和SQL。

尝试重新排列数据,以便在单元格中单独标记标题,而不是仅仅在同一单一标题下

这是我正在使用的数据:我想用“FullName”列中的最新非“NA”值替换所有“NA _____”。

回答 1 投票 -1

Python DataFrame - groupby和centroid计算

我有一个包含两列的数据框:一列包含一个类别,另一列包含一个300维向量。对于Category列中的每个值,我有很多300维向量。 ...

回答 4 投票 3

PySpark - 在UDF中调用函数

我创建了一个UDF但是我需要在UDF中调用一个函数。它目前返回空值。有人可以解释为什么我收到此错误。 a = spark.createDataFrame([(“A”,20),(“B”,...

回答 1 投票 1

如何计算R中数据框中特定值的数量? [重复]

我有一个数据帧df:a b c 1 5 5 2 3 5 3 3 5 3 3 3 3 3 2 4 2 2 1 2 2我想计算连续3行,例如,我该怎么做?例如,第2行= 1,第3行= 2等。请...

回答 3 投票 -2

列出Pandas数据帧中的唯一值

我知道df.name.unique()将在一列'name'中给出唯一值。例如:名称报告年度Coch Jason 2012 Pima Molly 2012 Santa Tina 2013 Mari Jake 2014 ...

回答 3 投票 2

将变量转换为Scala“运行时评估”中的方法

我想评估一个在scala中作为变量字符串传递的函数(抱歉,但我是scala的新手)def concate(a:String,b:String):String = {a +“”+ b} var func =“concate” //我将获得此功能名称...

回答 3 投票 2

熊猫:如何将单热编码数据帧转换为邻接矩阵?

我有一个数据框df,格式为:Col1 Col2 Col3 0 0 1 0 1 1 1 0 2 0 1 1 3 1 1 0我需要一个新形式的df:...

回答 1 投票 3

在数据框中创建列,指示另一列中的重复值

假设我在R:Data Table中有一个这样的数据表我希望在此表中添加一个列,表示该人是否切换了专业(如“Y”表示切换,“N”表示没有切换),怎么会一世 ...

回答 1 投票 0

R:使用dplyr基于列值的子集data.frame

library(dplyr)mydat1%group_by(ID,...

回答 4 投票 1

通过丢弃两个数据帧(Pandas)的交叉点来创建数据帧

有没有人知道在Python / Pandas中基于两个数据帧创建新数据帧的有效方法?我想要做的是检查df1中的值是否在df2中,然后不要将行添加到...

回答 2 投票 1

Pandas - 从现有列创建多个默认列

来自:Pandas - 基于2列和单独的测试列创建2个新列但是它本身就是一个不同的问题。它应该更简单!在引用的问题中......

回答 2 投票 1

通过指定级别的多个值切片MultiIndex DataFrame

我想通过辅助级别的多个值对MultiIndex DataFrame进行切片。例如,在以下DataFrame中:val1 val2 ind1 ind2 ind3 1 6 s1 10 ...

回答 2 投票 8

IF声明Panda Dataframe:系列的真值是模棱两可的

我有一个只有浮点数据的数据帧。我基本上想要创建一个新列,如果满足条件,则从另一列获取值,如果不满足则从另一列获取值。 ...

回答 2 投票 1

从数据框中按索引删除行

我有一个数组wrong_indexes_train,其中包含我想从数据帧中删除的索引列表:[0,63,151,469,1008]要删除这些索引,我正在尝试这样做:df_train.drop(...

回答 3 投票 2

使用pycountry检查name / common_name / official_name

我有一个数据框,其中“国家/地区”列包含我要转换为alpha_3国家/地区代码的国家/地区的名称(在标有“代码”的新列中)。我正在使用pycountry,但是...

回答 2 投票 3

获取给定条件成立的数据帧的列号

我有以下代码:raw_data = [[1,2,3],[4,5,6]] df = pd.DataFrame(data = raw_data,columns = [“cA”,“cB”,“cC”] )wrong_indexes = df.loc [df ['cA']> 2] print(...

回答 1 投票 1

屏蔽数据帧上的就地操作

我和pandas有点混蛋,我正在尝试使用apply对掩码数据帧的某些部分进行一些计算和修改。我要操作的部分是由我的面具定义的,我不...

回答 2 投票 1

大熊猫月份差异

我有一个数据框日期列,其值低于2015-01-01 2015-02-01 2015-03-01 2015-07-01 2015-08-01 2015-10-01 2015-11-01 2016-02-01 i想要在几个月内找到这些值的差异,如......

回答 2 投票 0

根据条件从数据框中删除行

我知道以前必须解决这个问题,但我似乎无法找到一个有效的答案我有我要测试条件的列,我想删除所有行...

回答 3 投票 1

PySpark - 从UDF获取行的索引

我有一个数据帧,我需要获取特定行的行号/索引。我想添加一个新行,使其包含Letter以及行号/索引,例如。 “A - 1”,“B - 2”#...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.