如何从Dask数据框中选择n个等距行?

问题描述 投票:0回答:1

我有很多镶木地板文件,其中所有块在一起太大,无法容纳到内存中。我想将它们加载到dask数据框中,计算一些结果(总和),然后将总和显示为图。因此,我想从累积行中选择等距的数据子集(大约k行),然后绘制该子集。我该怎么办?

python bigdata dask
1个回答
0
投票

您可以尝试:

slices = 10  # or whatever
slice_point = int(df.shape[0]/slices)

for i in range(slices):
    current_sliced_df = df.loc[i*slice_point:(i+1)*slice_point]

并对当前切片执行任何操作

© www.soinside.com 2019 - 2024. All rights reserved.