R导入和处理100,000 KB数据集时运行非常缓慢

问题描述 投票:0回答:1

我正在使用R中的数据集,尺寸约为7000 x5000。文件大小约为100,000 KB。将其加载到R中大约需要半小时。当我尝试创建相关表以运行PCA时,R冻结。然后,我必须重新打开它并再次导入数据。

我很惊讶如此大的数据集是如此之慢。我认为数据集必须大得多才能在一定程度上影响速度。我正在使用Microsoft Surface Pro 3。

没有人知道为什么会发生这种情况以及对此我能做什么吗?是我的笔记本电脑吗?还是这种事情在这种规模的数据集中很常见?

根据评论进行编辑:我的计算机有8 GB的RAM。这是我正在使用的代码:

nlsy_training_set <- read_excel("nlsy training set.xlsx")
df <- nlsy_training_set
full <- df[,2:4886]
corf <- cor(full)
corf <- fill.NAs(full, data = NULL, all.covs = FALSE, contrasts.arg = NULL)
corf <- as.data.frame(corf)
pcaf <- principal(corf, nfactors = 100, rotate = "varimax")$loadings
dfpcaf <- as.data.frame(pcaf)
r performance import freeze
1个回答
0
投票

这非常慢,因为我正在使用read_excel并将原始数据文件转换为Excel工作簿格式。一旦我使用read.csv并使用了原始的csv格式,就可以相对快速地将数据导入R中。

对于大型数据集,使用read.csv比read_excel更好。

© www.soinside.com 2019 - 2024. All rights reserved.