如何操纵R中的庞大数据集?

问题描述 投票:0回答:1

首先,我很抱歉可能会重复这个问题。但是,我看了很多其他类似的问题,无法解决我的问题。

好吧,我正在处理一个庞大的数据集,其中包含184,903,890行。一个超过6.5GB的对象。可以通过以下链接访问此csv文件:Ad Tracking Fraud Detection Challenge

我在一台具有以下规格的电脑上运行它:

  • i7 - 7700K - 4.2GHz
  • 16GB拉姆
  • GeForce GTX 1080 Ti,11.2GB DDR 5

但是,即使我试图将列设置为Date,系统也会停止工作。是否可以仅使用R来处理这种大小的数据集?

代码详情:

training <- fread('train.csv')

一些尝试停止R或返回无法分配大小的矢量...:

training$click_time <- as.Date(training$click_time)
training$click_time <- as.POSIXct(training$click_time, 'GMT')
training <- training %>% mutate(d_month = sapply(click_time, mday)

其他更新:

  • 我已经用gc()来清理内存了;
  • 我已经只为新数据集选择了2列;
r dataset bigdata
1个回答
0
投票

也许你达到了分配给R的内存。尝试memory_limit(),如果需要你可以用memory.limit(size = xxxx)增加默认值

© www.soinside.com 2019 - 2024. All rights reserved.