缺少数据插补是用替换的“最佳猜测”值替换缺失数据的过程。由于缺失数据可能会产生分析数据的问题并可能导致数据丢失,因此估算是一种避免与列表删除相关的问题的方法(忽略所有缺失值的观察结果)。
全部,我有四列数据框('key1','key2','data1','data2')。我在data1中插入了一些nan。现在我想用每个组中最有价值的值填充nan ...
我按照这篇文章中的方法用组模式替换缺失值,但遇到“IndexError:index out of bounds”。 df ['SIC'] = df.groupby('CIK')。SIC.apply(lambda x:x.fillna(x ....
我正在尝试使用missForest包将丢失的数据归入相当大的数据集中。我的大多数变量都是分类的,有很多因素。当我运行missForest时,它会输入十进制值...
我有一个包含69列和50000行的数据集。我的数据集只包含二进制变量和数值变量。此外,一些二进制变量具有一些缺失值(约5%)。我知道 ...
问题如何使用估算的年度SALES插入缺少YEARS的行。进度以下代码计算销售差异。但是,使用明确的iloc是一年了...
我有一些不同植物物种的字符矩阵,其中大多数物种缺少至少几个字符的数据。我想做一个主成分分析,所以我试图把...归咎于...
我目前有一项任务,包括一份数据表,其中包括有关在不同场合测量的动物物种观察的信息。在我的数据的“权重”列中...
通过做df.groupby('acc_count',as_index = False)['avg_spd']。median()我得到了acc_count avg_spd 0 20.94 1 24.42 2 26.035 3 ...
我有CSV数据必须用Python进行分析。数据中有一些缺失值。数据样本如下:SAMPLE ID,ID_TYPE,OB_DATE,VERSION_NUM,MET_DOMAIN_NAME,...
我试图在名为age的单个列上使用Imputer来替换缺失的值。但我得到错误为“预期的2D数组,而是得到1D数组:”以下是我的代码导入pandas as pd import ...
我有一个如下所示的数据集,具有独特的公司年度观察结果。但由于之前的合并,变量IndustryCode有一些NA。 stkcd date industrycode 10 2002。 2003年10月。 2004年10月......
我一直试图对R中的一些缺失值进行KNN估算,但是它已经在列中产生负值,其中不应该像年龄那样存在任何负值。(年龄确实......
我在lavaan中运行路径分析(使用序数)并且想要使用推算数据。但是我是否单独归因数据并使用runMI或将原始数据作为sem.mi的一部分进行估算...
我正在使用Pandas数据框,使用位于http://archive.ics.uci.edu/ml/machine-learning-databases/credit-screening/crx.data的UCI存储库信用筛选文件。数据包含一些...