首先,我很抱歉可能会重复这个问题。但是,我看了很多其他类似的问题,无法解决我的问题。
好吧,我正在处理一个庞大的数据集,其中包含184,903,890行。一个超过6.5GB的对象。可以通过以下链接访问此csv文件:Ad Tracking Fraud Detection Challenge
我在一台具有以下规格的电脑上运行它:
但是,即使我试图将列设置为Date,系统也会停止工作。是否可以仅使用R来处理这种大小的数据集?
代码详情:
training <- fread('train.csv')
一些尝试停止R或返回无法分配大小的矢量...:
training$click_time <- as.Date(training$click_time)
training$click_time <- as.POSIXct(training$click_time, 'GMT')
training <- training %>% mutate(d_month = sapply(click_time, mday)
其他更新:
也许你达到了分配给R的内存。尝试memory_limit()
,如果需要你可以用memory.limit(size = xxxx)
增加默认值