读取大型json.gz文件使内核崩溃

Question

我有一个数据集，价值7GB。我正在阅读如下：

path = direc + '2018-01-*.*' ddf = dd.read_json(path,blocksize=None)

我使用此方法是因为通过熊猫读取它似乎总是使我的内核崩溃并耗尽我的本地内存-我正在我的机器上运行它。

我需要进行大量分析，但是如果我保存到拼花地板上，甚至进行计数或删除重复项，任何命令似乎都会使内核崩溃。

有关如何运行命令/操作此数据集的任何建议？

Answer 1

据我所知，您所做的一切都很好。 Dask永远不要使内核崩溃，在这种情况下可能发生的最坏情况是您的内存不足。

因此，您可能必须弄清楚如何简洁地提供更多信息以创建MCVE