Dask,如何将变量中具有特定值的行放入惰性计算

问题描述 投票:0回答:1

我正在尝试学习使用 dask 来完成我的机器学习项目。

我的数据集太大,无法与 Pandas 一起玩,所以我必须保持延迟加载。

这里有一个小示例来展示它是如何设置的: enter image description here

我尝试了 pandas 风格,但它没有尽头......

clean = ds[ds['ptype'] == 0]

这种方式是相同的结果:

ds_filtered = ds.where(ds['ptype'] != 0, drop=True)

副驾驶向我展示了其他方法,但没有延迟加载或只是不起作用的解决方案

python-3.x lazy-loading dask dask-dataframe
1个回答
0
投票

所以我相信你在这里提到它并没有抓住要点。 延迟加载只是意味着,在调用 compute() 函数之前不会执行任何操作,然后该函数将负责执行。!

所以你需要准备好所有逻辑,最后你可以调用计算函数。

如果你的数据太大,compute会在内部合并所有内容并将整个数据带入调用者,这仍然可能会杀死你的应用程序,死于OOM,所以最好将map_partions与compute一起使用,将其写入单独的文件或将输出推送到一些数据库。!

© www.soinside.com 2019 - 2024. All rights reserved.