如何配置集群或知道您的配置可以吗？

问题描述投票：0回答：1

我有大量文件要处理。我需要在每个文件的一列上执行set_index。

我读过set_index确实很昂贵，我们应该减少分区数。我已经尝试过了，但是暂时没有帮助。

要对庞大的数据集执行这种操作需要什么？根据与工作程序和线程相关联的内存，分区的理想大小是多少？

[我已经注意到，例如，如果我设置了8个worker，并且每个工人有30GB，70GB或100GB，我认为我的配置有问题（目前在单个节点上，但希望很快会在群集模式下运行）：

使用的内存在工作人员之间甚至不平衡，可能会死亡。
我的日志行带有Event loop was unresponsive in Worker for 12.02s. This is often caused by long-running GIL-holding functions or moving large chunks of data. This can cause timeouts and instability是不是一个问题？
我的工人一死一死，直到我失去了所有的工人
我只能让一个工作人员/许多线程共享整个内存，但是过程确实很慢，我认为它将完成（一天……）

python bigdata dask data-processing

1个回答

1
投票

我建议通读Dask's best practices。

您的问题非常广泛，很遗憾，答案也是如此。通常，您问题的答案将在很大程度上取决于您如何使用Dask。

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.