有关缺失数据问题的问题,可能涉及特殊数据结构,算法,统计方法,建模技术,可视化以及其他考虑因素。
作为学校项目的一部分,我必须在给定的数据库上探索和执行数据分析和机器学习方法。关键是我的数据库很大(12 651 行 810 列)...
我有一个信息数据框,包括各个节点的每小时平均值,但是当缺少一个小时时,它只会跳过该行。 我怎样才能让每个节点都有相同数量的 r ...
如何在使用 LabelEncoder + Iterative Imputer 进行插补后取回分类数据?
我正在尝试为分类数据列估算缺失值,我已成功估算它们但现在我想将它们改回分类,该怎么做? 我用过 labelencoder 和
在 R- 零膨胀泊松中使用 MICE 从多个估算数据集中合并估计的问题
我一直在尝试对我使用 mice() 来估算缺失数据的数据框运行零膨胀泊松回归。我的代码成功地运行了多重插补并汇集了结果......
read.csv:某些列在 R 中设置为零(应该是数字但作为字符导入)
我正在尝试导入一些带有字段数据的 csv 文件,以将多个 csv 文件合并为一个。 我的目标是只有数字列。 不幸的是,R 将所有值替换为“0”...
对于 3D 空间中的直角三角形,如果我有 斜边开始和结束 3D 坐标 3D平面定义 已知两侧的长度(斜边除外) 我怎样才能计算出第三个 3D
ImportError:无法从“sklearn.neighbors._base”导入名称“_check_weights”
我正在尝试将 Missforest 作为处理表数据中缺失值的方法。 导入sklearn 打印(sklearn.__version__) ->1.2.1 导入 sklearn.neighbors._base 导入系统 sys.modules['skle...
晚上好,我在填充数据框中缺失的数据时遇到了问题。 如果缺失值的数量是 betw...
我有一个与此类似的问题,但我的数据集有点大:50 列,其中 1 列为 UID,其他列携带 TRUE 或 NA,我想将所有 NA 更改为 FALSE,但我没有...
以下代码引发 KeyError 异常: addr_list_formatted = [] 地址列表 IDX = 0 for addr in addr_list: # addr_list 是一个列表 addr_list_idx = addr_list_idx + 1 addr_list_formatted.
any(df.isnull()) 和 pd.isnull(data).any() 的不同结果
我正在使用带有 pandas 的标准波士顿房屋数据框,我注意到一些让我烦恼的事情: 当我以两种不同的方式检查缺失值时——我得到了两种不同的结果,t...
我是一个绝对的 R 初学者所以请耐心等待我解释!我正在寻找一个代码,该代码将通过使用最后一个可用性来填充最右列 (edu2019) 中的 NA 值...
我对记录为字符串的时间变量(编码为 hmm 或 hhmm)有疑问。我需要以下方面的帮助: 值 9999 必须编码为缺失,NA。 值h99或hh99,需要编码为h...
使用第二个索引级别的最后一个可用值来估算多索引数据框中的缺失值
我正在努力解决以下问题: 我有以下结构的时间序列数据的多级索引数据框: 将熊猫导入为 pd 将 numpy 导入为 np multi_index = pd.MultiIndex.from_...
我有一个数据集如下。# dt 年份 ST CC ID M NonMissing Tot GRP_Mean 2004 55 35 60 NA 3 4 174.0000 2005 55 35 60 174 3 4 174.0000 ...。
我有一个大型数据集,包含10个变量和12,000个观测值,来自3种不同的系统(200个来自小池塘,600个来自河流,11200个来自湖泊)。在我的数据中,有很多新农合...
使用XGBClassifier后,如何保存已填充的缺失数据?
我有一个数据集,里面有缺失的值,但是这对XGBClassifier来说不是问题。它可以为您动态地填充值。我想保存XGBClassifier填充的特征。我的...
使用XGBClassifier后,如何保存已填充的缺失数据?
我有一个数据集,里面有缺失的值,但是这对XGBClassifier来说不是问题。它可以为您动态地填充值。我想保存XGBClassifier填充的特征。我的...
dropna()在给定阈值的情况下,对axis = 1不起作用[重复] 。
对于给定的数据集,我执行了一个dropna的轴=1与阈值=2 df.dropna(thresh=2,axis=1) 输出是 这似乎并不正确,我期望的是下降列与索引=1 ... ...
我目前正在研究一个亚马逊的数据集,有很多行,这使得很难发现数据中的问题。我的目标是看amazon数据,看某些产品是否有较高 ...