dask 相关问题

Dask是一个灵活的并行计算库,用于分析计算。它支持针对计算和大数据集合优化的动态任务调度。

Dask.array转换逐点数组操作

根据一般的numpy操作“逐步化”逐点函数是否可行?案例+部分解决方案:例如,请看这里:https://github.com/SciTools/iris/pull/2964 ...

回答 1 投票 0

Dask日期时间优化

我想知道如何优化这种转换,我需要计算一周中的行数为125百万行,我有一台4 GB内存的计算机,我只是尝试这个:df_train ['date']。dt .. ..

回答 1 投票 2

使用Load Balancer在AWS ECS上尝试dask.distributed集群时出现连接错误

我们正尝试在AWS上使用ECS启动一个dask集群。我们当前的设置:两个服务 - 一个dask-scheduler服务和一个dask-worker服务,每个服务都有一个任务定义。每项服务都有一项任务(在......

回答 2 投票 1

如何查看Dask Compute任务的进度?

我想在Jupyternotebook上看到一个进度条,当我使用Dask运行计算任务时,我正在从一个大的csv文件+ 4GB计算“id”列的所有值,所以任何想法?导入dask ....

回答 1 投票 13

获取仅包含每个用户的最新行的新数据帧

我有一个大数据框看起来像这样:Id last_item_bought时间'user1''自行车'2018-01-01'user3''勺子'2018-01-01'user2''汽车'2018-01-01'user1''勺子'2018-01-02'user2''自行车'2018-01 -...

回答 1 投票 4

Python:使用celery处理多个服务器上的参数列表

我正在尝试使用Celery来处理输入列表。我想只处理一次输入。问题是我的服务器都是超级计算机集群的一部分。我可以发送每个服务器一个...

回答 1 投票 0

Dask groupby和apply:值错误预期的轴有6个元素,新值有5个元素

我正在尝试基于密钥折叠数据帧的行。我的文件很大,pandas会抛出内存错误。我目前正在尝试使用dask。我在这里附上代码片段。 def f(x):...

回答 1 投票 0

read_sql_table后无法持久化dask数据帧

我试图将数据库表读入一个dask数据帧,然后保持数据帧。我尝试了一些变体,它们要么导致内存不足,要么出错。我在工作 ...

回答 1 投票 0

在给定Client实例的情况下,是否可以关闭dask.distributed集群?

如果我有一个distributed.Client实例,我可以用它来关闭远程集群吗?即杀死所有工人并关闭调度程序?如果使用Client实例无法完成,则...

回答 1 投票 2

Dask分布式按顺序执行任务

我有一个使用LocalCluster的管道:来自分布式导入客户端客户端= Client()list_of_queries = [...] #sid 1_000查询loaded_data = client.map(sql_data_loader,list_of_queries)...

回答 1 投票 1

Dask groupby日期表现

给定以下dask数据帧:将numpy作为np导入pandas导入为pd导入dask.dataframe为dd N = int(1e4)df = pd.DataFrame(np.random.randn(N,3),columns = list('abc') ),...

回答 1 投票 1

使用Dask加载多个CSV文件时混合列

我试图用dask导入一堆csv文件,看起来我的列混合了。导入pandas为pd import dask.dataframe为dd import numpy as np names = ['date','country','A','B'] ...

回答 1 投票 1

使用默认调度程序进行Dask内存管理

我一直在尝试在单个本地计算机上管理Dask的内存使用情况。出于某种原因,默认的Dask Client()和LocalCluster()调度程序似乎总是破坏,但Dask工作得很好......

回答 1 投票 0

Dask distributed无法使用numpy.arrays和sparse.matrices反序列化

我在图表上的不同任务上多次收到以下错误(执行之间的更改)。可能当某些任务返回numpy.arrays和scipy.sparse矩阵时。分散式....

回答 1 投票 1

如何使用dask.distributed并行化嵌套循环?

我试图使用看起来像这样的dask分布并行化嵌套循环:@dask.delayed def delayed_a(e):a = do_something_with(e)返回@ dask.delayed def delayed_b(...

回答 1 投票 0

对于size =(M,N)的大于内存的dask数组:如何从chunk =(1,N)重新chunk到chunk =(M,1)?

为了例如沿着整个轴应用在Numpy / Numba中编码的IIR-Filter,我需要将一个size =(M,N)dask-array从chunks =(m0,n0)重新chunk到chunks =( m1,N),m1 <m0。正如Dask避免......

回答 2 投票 2

如何在与提交它的机器不同的机器上获得Dask计算结果?

我在Django服务器后面使用Dask,我在此总结了基本设置:https://github.com/MoonVision/django-dask-demo/其中可以找到Dask客户端:https://github.com / ...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.