我正在尝试学习使用 dask 来完成我的机器学习项目。
我的数据集太大,无法与 Pandas 一起玩,所以我必须保持延迟加载。
我尝试了 pandas 风格,但它没有尽头......
clean = ds[ds['ptype'] == 0]
这种方式是相同的结果:
ds_filtered = ds.where(ds['ptype'] != 0, drop=True)
副驾驶向我展示了其他方法,但没有延迟加载或只是不起作用的解决方案
所以我相信你在这里提到它并没有抓住要点。 延迟加载只是意味着,在调用 compute() 函数之前不会执行任何操作,然后该函数将负责执行。!
所以你需要准备好所有逻辑,最后你可以调用计算函数。
如果你的数据太大,compute会在内部合并所有内容并将整个数据带入调用者,这仍然可能会杀死你的应用程序,死于OOM,所以最好将map_partions与compute一起使用,将其写入单独的文件或将输出推送到一些数据库。!