dask 相关问题

Dask是一个灵活的并行计算库,用于分析计算。它支持针对计算和大数据集合优化的动态任务调度。


进行了分会数据框架,并保存到镶木框架失去索引和划分

美好的早晨, 我有一个来自Spark的哈希分区数据框(从Parquet读取)。我正在将所有内容移到Dask。在dask中使用时,Spark中的哈希分区DF可用于加入...

回答 1 投票 0

用布尔阵列

I有一个很大的DASK数据框架和一个Numpy阵列

回答 0 投票 0

使用Streamz.dask和Matplotlib和Tkiniter窗口实时显示图形和直方图?

def readline_char_by_char(file,fig): line = '' while True: char = file.read(1) if not char: fig.canvas.flush_events() #time.sleep(0.01) continue line += char if char == '\n': return line

回答 1 投票 0

dask:memory_limit控件是什么?

在Dask的LocalCluster中,有一个参数Memory_limit。 我找不到文档(https://distributed.dask.org/en/latest/worker.html#memory-management)详细介绍了是否限制...

回答 1 投票 0


从 SQL Server 数据库加载大量数据时出现问题

我当前的问题是从 SQL Server 数据库的大约 5.000.000 行的表中加载大量数据。 设置(我无法影响)是: 0 个图形处理器 4000个CPU 15.0G内存 我的...

回答 2 投票 0

从 MSSQL 数据库加载大数据时出现问题

我当前的问题是从 SQL 数据库加载大型数据/表(大约 5.000.000 行)。 设置(我无法影响)是: 0 个图形处理器 4000个CPU 15.0G内存 我的 SQL 代码存储为 .sql f...

回答 1 投票 0

dask 分布式:如何增加工作连接的超时时间? connect() 没有及时完成

OSError:10秒后尝试连接到“tcp://127.0.0.1:40475”超时:10秒后尝试连接“tcp://8.56.11:40475”超时:connect()没有及时完成 进行一些大型手术...

回答 3 投票 0

dask `var` 和 `std` 以及 groupby 上下文和其他聚合中的 ddof

假设我想在 groupby 上下文中使用非默认 ddof 计算方差和/或标准差,我可以这样做: df.groupby("a")["b"].var(ddof=2) 如果我希望这样的事情发生...

回答 1 投票 0

不进行聚合的 dask groupby

我有这个纯 Pandas 语句,可以工作(在小数据集上)。 grouped_dfs = {key: group.drop(columns=['country']) for key, group in df.groupby('country')} 现在,为了管理非常大的 csv 文件,我...

回答 1 投票 0

如何使用SLURMRunner(作业队列)设置Dask仪表板地址并通过SSH端口转发访问它?

我正在尝试使用 dask-jobqueue 中的 SLURMRunner 在远程集群上运行 Dask Scheduler 和 Workers。我想将 Dask 仪表板绑定到 0.0.0.0(因此可以通过端口转发访问)和...

回答 1 投票 0

Azure Kubernetes 中的 Dask 自适应部署

我正在尝试部署一个包含0个worker和1个调度程序的dask集群,根据工作负载需要将worker扩展到所需的数量,我发现自适应部署是正确的方法,我就是我们...

回答 1 投票 0

Pandas read_excel 具有 nrows、skiprows 和延迟加载?

我正在寻找将 .xlsx 文件作为数据帧块读取的方法,而不是将整个文件加载到内存中。当我 pd.read_excel(nrows,skiprows,usecols) 时到底会发生什么?难道是……

回答 1 投票 0

仅使用一个 row_group 对 parquet 文件进行采样

我正在处理一个包含超过 3000 万行的巨大镶木地板文件。我只需要其中的一小部分,并希望选择一些随机选择的行。当我检查文件的元数据时,有...

回答 1 投票 0

Dask 无法同步读取 NFS 上共享的数据

在系统 A 上运行 Dask Scheduler,并在系统 A 和 B 上运行工作程序。系统 A 中的 NFS 卷通过 NFS 在网络上与系统 B 共享,并包含数据文件。该文件夹有一个符号...

回答 1 投票 0

在分块 xarray DataArray 上使用 xarray.apply_ufunc 时出错

您好,我正在尝试尽可能有效地将一些 netCDF4 (.nc) 文件内的数据排序到垃圾箱中。我目前正在尝试使用 xarray 和 NumPy 的数字化函数。因为我想处理...

回答 1 投票 0

如何在dask调度程序中设置超时参数

我试图运行 dask-distributed 在 slurm 集群中分发一些大型计算。 我总是收到“超时错误:找不到有效的工作人员”消息(这来自第 6130 行...

回答 1 投票 0

Django + Dask 集成:使用情况和进展?

关于性能和最佳实践 请注意,以下问题的完整代码已在 Github 上公开。 欢迎查看该项目! https://github.com/b-long/moose-dj-uv/pull/3 我正在努力...

回答 1 投票 0

Dask 分布式暂停任务以等待子任务 - 操作方法,还是不好的做法?

我正在使用 client.submit 运行任务: 从 dask.distributed 导入 Client、get_client、等待、as_completed # 其他进口 zip_and_upload_futures = [ client.submit(zip_and_upload, id, 路径,

回答 1 投票 0

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.