dask 相关问题

Dask是一个灵活的并行计算库，用于分析计算。它支持针对计算和大数据集合优化的动态任务调度。

我正在将语义分割应用于非常大的（数十GB）体积。我使用dask以小块，细分并以内存有效的方式汇总结果。但是，我不太喜欢Dask的Map_overlap只是修剪块，并且不提供其他聚合方式，例如平均水平。我尝试了Monai的Sliding_Window_Inference和Torchio的Gridaggregator等替代方案，但是它们在内部进行了分配的整体分配中，它们非常强度。我正在考虑手动执行操作，但是如果有一些准备好的选项，那会更好。您是否知道DASK的任何替代方案，它们可以处理大量记忆，并提供平滑的聚合方式？

最终，我使用了Dask，考虑了几个重叠的子块的块大小和融合结果，并具有兴趣的大小。

memory dask volume semantic-segmentation large-data-volumes

回答 0 投票 0

进行了分会数据框架，并保存到镶木框架失去索引和划分

美好的早晨，我有一个来自Spark的哈希分区数据框（从Parquet读取）。我正在将所有内容移到Dask。在dask中使用时，Spark中的哈希分区DF可用于加入...

dask dask-dataframe

回答 1 投票 0

用布尔阵列

I有一个很大的DASK数据框架和一个Numpy阵列

python dask dask-dataframe

回答 0 投票 0

使用Streamz.dask和Matplotlib和Tkiniter窗口实时显示图形和直方图？

def readline_char_by_char(file,fig): line = '' while True: char = file.read(1) if not char: fig.canvas.flush_events() #time.sleep(0.01) continue line += char if char == '\n': return line

dask dask-distributed dask-dataframe streamz

回答 1 投票 0

dask：memory_limit控件是什么？

在Dask的LocalCluster中，有一个参数Memory_limit。我找不到文档（https://distributed.dask.org/en/latest/worker.html#memory-management）详细介绍了是否限制...

python dask dask-distributed

回答 1 投票 0

杀死工人的例外是什么意思？我的任务在使用dask.dask.dask.distribated调度程序的DASK时返回了杀人工人的例外。这些错误是什么意思？

dask

回答 1 投票 0

从 SQL Server 数据库加载大量数据时出现问题

我当前的问题是从 SQL Server 数据库的大约 5.000.000 行的表中加载大量数据。设置（我无法影响）是： 0 个图形处理器 4000个CPU 15.0G内存我的...

python sql-server pandas sqlalchemy dask

回答 2 投票 0

从 MSSQL 数据库加载大数据时出现问题

我当前的问题是从 SQL 数据库加载大型数据/表（大约 5.000.000 行）。设置（我无法影响）是： 0 个图形处理器 4000个CPU 15.0G内存我的 SQL 代码存储为 .sql f...

python sql-server pandas sqlalchemy dask

回答 1 投票 0

dask 分布式：如何增加工作连接的超时时间？ connect() 没有及时完成

OSError：10秒后尝试连接到“tcp://127.0.0.1:40475”超时：10秒后尝试连接“tcp://8.56.11:40475”超时：connect()没有及时完成进行一些大型手术...

dask dask-distributed

回答 3 投票 0

dask `var` 和 `std` 以及 groupby 上下文和其他聚合中的 ddof

假设我想在 groupby 上下文中使用非默认 ddof 计算方差和/或标准差，我可以这样做： df.groupby("a")["b"].var(ddof=2) 如果我希望这样的事情发生...

python dask dask-dataframe

回答 1 投票 0

不进行聚合的 dask groupby

我有这个纯 Pandas 语句，可以工作（在小数据集上）。 grouped_dfs = {key: group.drop(columns=['country']) for key, group in df.groupby('country')} 现在，为了管理非常大的 csv 文件，我...

dask dask-dataframe

回答 1 投票 0

如何使用SLURMRunner（作业队列）设置Dask仪表板地址并通过SSH端口转发访问它？

我正在尝试使用 dask-jobqueue 中的 SLURMRunner 在远程集群上运行 Dask Scheduler 和 Workers。我想将 Dask 仪表板绑定到 0.0.0.0（因此可以通过端口转发访问）和...

python dask slurm dask-distributed dask-jobqueue

回答 1 投票 0

Azure Kubernetes 中的 Dask 自适应部署

我正在尝试部署一个包含0个worker和1个调度程序的dask集群，根据工作负载需要将worker扩展到所需的数量，我发现自适应部署是正确的方法，我就是我们...

azure kubernetes kubernetes-helm dask dask-distributed

回答 1 投票 0

Pandas read_excel 具有 nrows、skiprows 和延迟加载？

我正在寻找将 .xlsx 文件作为数据帧块读取的方法，而不是将整个文件加载到内存中。当我 pd.read_excel(nrows,skiprows,usecols) 时到底会发生什么？难道是……

python-3.x pandas dataframe dask file-processing

回答 1 投票 0

仅使用一个 row_group 对 parquet 文件进行采样

我正在处理一个包含超过 3000 万行的巨大镶木地板文件。我只需要其中的一小部分，并希望选择一些随机选择的行。当我检查文件的元数据时，有...

python pandas dask parquet pyarrow

回答 1 投票 0

Dask 无法同步读取 NFS 上共享的数据

在系统 A 上运行 Dask Scheduler，并在系统 A 和 B 上运行工作程序。系统 A 中的 NFS 卷通过 NFS 在网络上与系统 B 共享，并包含数据文件。该文件夹有一个符号...

dask nfs dask-distributed

回答 1 投票 0

在分块 xarray DataArray 上使用 xarray.apply_ufunc 时出错

您好，我正在尝试尽可能有效地将一些 netCDF4 (.nc) 文件内的数据排序到垃圾箱中。我目前正在尝试使用 xarray 和 NumPy 的数字化函数。因为我想处理...

python dask python-xarray netcdf

回答 1 投票 0

如何在dask调度程序中设置超时参数

我试图运行 dask-distributed 在 slurm 集群中分发一些大型计算。我总是收到“超时错误：找不到有效的工作人员”消息（这来自第 6130 行...

python dask dask-distributed

回答 1 投票 0

Django + Dask 集成：使用情况和进展？

关于性能和最佳实践请注意，以下问题的完整代码已在 Github 上公开。欢迎查看该项目！ https://github.com/b-long/moose-dj-uv/pull/3 我正在努力...

python django concurrency dask

回答 1 投票 0

Dask 分布式暂停任务以等待子任务 - 操作方法，还是不好的做法？

我正在使用 client.submit 运行任务：从 dask.distributed 导入 Client、get_client、等待、as_completed # 其他进口 zip_and_upload_futures = [ client.submit(zip_and_upload, id, 路径,

dask dask-distributed

回答 1 投票 0

dask 相关问题

最新问题