dask 相关问题

Dask是一个灵活的并行计算库,用于分析计算。它支持针对计算和大数据集合优化的动态任务调度。

如何使用SLURMRunner(作业队列)设置Dask仪表板地址并通过SSH端口转发访问它?

我正在尝试使用 dask-jobqueue 中的 SLURMRunner 在远程集群上运行 Dask Scheduler 和 Workers。我想将 Dask 仪表板绑定到 0.0.0.0(因此可以通过端口转发访问)和...

回答 1 投票 0

Azure Kubernetes 中的 Dask 自适应部署

我正在尝试部署一个包含0个worker和1个调度程序的dask集群,根据工作负载需要将worker扩展到所需的数量,我发现自适应部署是正确的方法,我就是我们...

回答 1 投票 0

Pandas read_excel 具有 nrows、skiprows 和延迟加载?

我正在寻找将 .xlsx 文件作为数据帧块读取的方法,而不是将整个文件加载到内存中。当我 pd.read_excel(nrows,skiprows,usecols) 时到底会发生什么?难道是……

回答 1 投票 0

仅使用一个 row_group 对 parquet 文件进行采样

我正在处理一个包含超过 3000 万行的巨大镶木地板文件。我只需要其中的一小部分,并希望选择一些随机选择的行。当我检查文件的元数据时,有...

回答 1 投票 0

Dask 无法同步读取 NFS 上共享的数据

在系统 A 上运行 Dask Scheduler,并在系统 A 和 B 上运行工作程序。系统 A 中的 NFS 卷通过 NFS 在网络上与系统 B 共享,并包含数据文件。该文件夹有一个符号...

回答 1 投票 0

在分块 xarray DataArray 上使用 xarray.apply_ufunc 时出错

您好,我正在尝试尽可能有效地将一些 netCDF4 (.nc) 文件内的数据排序到垃圾箱中。我目前正在尝试使用 xarray 和 NumPy 的数字化函数。因为我想处理...

回答 1 投票 0

如何在dask调度程序中设置超时参数

我试图运行 dask-distributed 在 slurm 集群中分发一些大型计算。 我总是收到“超时错误:找不到有效的工作人员”消息(这来自第 6130 行...

回答 1 投票 0

Django + Dask 集成:使用情况和进展?

关于性能和最佳实践 请注意,以下问题的完整代码已在 Github 上公开。 欢迎查看该项目! https://github.com/b-long/moose-dj-uv/pull/3 我正在努力...

回答 1 投票 0

Dask 分布式暂停任务以等待子任务 - 操作方法,还是不好的做法?

我正在使用 client.submit 运行任务: 从 dask.distributed 导入 Client、get_client、等待、as_completed # 其他进口 zip_and_upload_futures = [ client.submit(zip_and_upload, id, 路径,

回答 1 投票 0

使用“dask.delayed”将大于内存的xarray数据集存储到zarr,而不会耗尽内存

我正在尝试使用dask在xarray中进行大于内存的处理。具体来说,我正在尝试: 按时间连接多个 NetCDF 文件(在同一地理网格上,相同的变量) 将它们重新网格化为

回答 1 投票 0

DASK to_csv() 由于内存问题

我正在清理我的文本数据,然后想将其保存到 csv。定义的清理函数工作正常,但是当 to_csv() 部分出现时,问题也随之而来。 也许有人遇到过类似的情况

回答 1 投票 0

Dask,如何将变量中具有特定值的行放入惰性计算

我正在尝试学习使用 dask 来完成我的机器学习项目。 我的数据集太大,无法使用 Pandas,所以我必须保持延迟加载。 这里有一个小样本来展示它是如何设置的:...

回答 1 投票 0

Dask - 如何取消和重新提交停滞的任务?

我经常遇到这样的问题:Dask 在几个任务上随机停止,这些任务通常与从网络上的不同节点读取数据相关(更多详细信息请参见下文)。 这可能会发生...

回答 2 投票 0

使用 --multiprocessing-fork 了解当前进程是否是多处理池的一部分

我需要找到一种方法让 python 进程确定它是否作为多处理池的一部分启动。 我正在使用 dask 来并行计算,使用 dask.distributed.LocalCluster。对于用户体验

回答 1 投票 0

如何将 dask_cudf 应用函数的输出附加到原始 dask_cudf?

我正在将一个函数(例如字母频率)应用于由一列固定长度的单词组成的 dask_cudf 数据帧。 我正在尝试合并输出或将输出附加到或...

回答 1 投票 0

在 python xarray 中,如何在不加载整个数据数组的情况下创建惰性变量并对其进行子集化?

我正在尝试创建一个 python 函数,该函数使用 xarray 打开远程数据集(在 opendap 服务器中)并自动延迟创建新变量。一个用例是计算幅度和

回答 1 投票 0

如何在dask分布式worker上设置日志记录?

将 dask 升级到版本 1.15.0 后,我的日志记录停止工作。 我已经使用logging.config.dictConfig来初始化python日志记录工具,并且之前这些设置传播...

回答 2 投票 0

通过多个自定义函数优化 Pandas GroupBy 和大型数据集的聚合

我正在处理一个大型 Pandas 数据框(大约 3050 万行),我需要按多列进行分组并应用不同的自定义聚合函数。然而,目前的表现是

回答 1 投票 0

在 HPC 系统上使用 Dask 的常见工作流程

我是 Dask 新手。我目前正在由 SLURM 管理的 HPC 中工作,其中包含一些计算节点(执行作业的节点)和登录节点(我通过 SSH 访问该节点以发送 SLURM 作业)。我是...

回答 1 投票 0

如何在文件中捕获 dask-worker 控制台日志?

在下面,我想在一个文件中捕获“dask_client_log_msg”和其他任务日志,在一个单独的文件中捕获“dask_worker_log_msg”和其他客户端日志。显然客户会...

回答 3 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.