我有很多镶木地板文件,其中所有块在一起太大,无法容纳到内存中。我想将它们加载到dask数据框中,计算一些结果(总和),然后将总和显示为图。因此,我想从累积行中选择等距的数据子集(大约k行),然后绘制该子集。我该怎么办?
您可以尝试:
slices = 10 # or whatever
slice_point = int(df.shape[0]/slices)
for i in range(slices):
current_sliced_df = df.loc[i*slice_point:(i+1)*slice_point]
并对当前切片执行任何操作