调查joblib减速

Question

我正在尝试使用joblib并行制作自定义随机森林实施列车。

任务是令人尴尬的平行，所以我假设加速不应该太辛苦与joblib。

这是一些示例代码：

class RandomForest(object):
    def __init__(self, settings, data):
        self.forest = [None] * settings.n_trees
        self.parallel = Parallel(n_jobs=settings.njobs, backend="threading")

    def fit(self, data, train_ids_current_minibatch, settings, param, cache):
        self.forest = self.parallel(
            delayed(_parallel_build_trees_batch)(
                i_t, data, train_ids_current_minibatch, settings, param, cache)
            for i_t, tree in enumerate(self.forest))

    def partial_fit(self, data, train_ids_current_minibatch, settings, param, cache):
        self.forest = self.parallel(
            delayed(_parallel_build_trees_partial)(
                tree, i_t, data, train_ids_current_minibatch, settings, param, cache)
            for i_t, tree in enumerate(self.forest))

但是，在批处理和增量情况下，使用多个作业时，培训速度要慢得多。数据和缓存参数是包含（大）numpy数组的dicts，所以我想知道这是否是原因。

我尝试使用multiprocessing.Pool进行相同的编码，结果更糟，因为没有使用joblib的threading后端，我假设因为fit函数大量使用numpy / scipy代码。

关于如何调试/修复减速的任何想法？

Answer 1

你的分析对我来说似乎是正确的：减速是由data和cache作为大型物体引起的。现在，在多处理环境中，您没有共享内存，因此您需要以某种方式共享这些对象。 Python通过shared objects支持这个：有一个“主进程”真正拥有对象。但是其他进程需要通过某种机制发送所有更新（AFAIK对象被pickle然后通过管道或队列发送），这会减慢它的速度。

我看到了一些选项：

转换你的代码，使它使用分区：我不熟悉随机森林。我想每个进程都有data作为初始数据集然后你试图找到一个“最佳”。如果您可以推送进程1以查找所有“类型A”优化，并且进程2找到所有“类型B”优化，然后让每个进程例如将他们的发现写在文件rf_process_x.txt的磁盘上然后你不需要共享内存状态
转换你的代码，使它使用队列（参见this page上的最后一个例子）：如果分区不起作用，那么你可以：启动n个工作进程每个过程为自己建立他的data集（所以它不在共享内存中）在主要过程中，您将“作业”放入task_queue，例如使用此特定参数集查找随机森林。 worker从task_queue获取作业，计算它并将其结果放在result_queue上。如果任务和结果很慢，这只是很快，因为这些对象需要被腌制并通过管道从父进程发送到工作进程。
使用joblib memmap ping：qazxsw poi将对象转储到磁盘上，然后为每个对象提供对该文件的内存映射访问
如果您的操作不受CPU限制（执行大量磁盘或网络操作），您可以转向多线程。这样你真的有一个共享内存。但据我所知，你是cpu绑定并将遇到“GIL锁定”问题（在cpython中一次只运行一个线程）
您可以找到加速随机森林的其他方法，例如： Joblibs supports提到了一些

调查joblib减速

问题描述投票：0回答：1

1个回答

最新问题

调查joblib减速

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1