Dask，如何将变量中具有特定值的行放入惰性计算

Question

我正在尝试学习使用 dask 来完成我的机器学习项目。

我的数据集太大，无法与 Pandas 一起玩，所以我必须保持延迟加载。

这里有一个小示例来展示它是如何设置的：

我尝试了 pandas 风格，但它没有尽头......

clean = ds[ds['ptype'] == 0]

这种方式是相同的结果：

ds_filtered = ds.where(ds['ptype'] != 0, drop=True)

副驾驶向我展示了其他方法，但没有延迟加载或只是不起作用的解决方案

Answer 1

所以我相信你在这里提到它并没有抓住要点。延迟加载只是意味着，在调用 compute() 函数之前不会执行任何操作，然后该函数将负责执行。！

所以你需要准备好所有逻辑，最后你可以调用计算函数。

如果你的数据太大，compute会在内部合并所有内容并将整个数据带入调用者，这仍然可能会杀死你的应用程序，死于OOM，所以最好将map_partions与compute一起使用，将其写入单独的文件或将输出推送到一些数据库。！