dask-distributed 相关问题

Dask.distributed是一个用于Python中的分布式计算的轻量级库。它将concurrent.futures和dask API扩展到中等大小的集群。

Dask - 如何取消和重新提交停滞的任务？

我经常遇到这样的问题：Dask 在几个任务上随机停止，这些任务通常与从网络上的不同节点读取数据相关（更多详细信息请参见下文）。这可能会发生...

python-3.x dask dask-distributed dask-delayed fastparquet

回答 2 投票 0

使用 --multiprocessing-fork 了解当前进程是否是多处理池的一部分

我需要找到一种方法让 python 进程确定它是否作为多处理池的一部分启动。我正在使用 dask 来并行计算，使用 dask.distributed.LocalCluster。对于用户体验

python multiprocessing dask dask-distributed

回答 1 投票 0

在 HPC 系统上使用 Dask 的常见工作流程

我是 Dask 新手。我目前正在由 SLURM 管理的 HPC 中工作，其中包含一些计算节点（执行作业的节点）和登录节点（我通过 SSH 访问该节点以发送 SLURM 作业）。我是...

dask hpc dask-distributed

回答 1 投票 0

如何在文件中捕获 dask-worker 控制台日志？

在下面，我想在一个文件中捕获“dask_client_log_msg”和其他任务日志，在一个单独的文件中捕获“dask_worker_log_msg”和其他客户端日志。显然客户会...

dask dask-distributed dask-delayed

回答 3 投票 0

如何让 Dask 工作人员在处理大型数据集时保持忙碌，以防止他们耗尽任务？

我正在尝试使用Python中的Dask分布式计算来处理大型数据集（大约100万个任务）。（我正在从数据库获取数据来处理它，并且正在检索大约 1M 行）。我在这里

python dask dask-distributed dask-delayed

回答 1 投票 0

如何模块化与 dask 一起使用的函数？

我正在尝试模块化使用 Dask 的函数，但我不断遇到错误“没有名为“setup”的模块”。我无法导入任何与 Dask 相关的本地模块，目前，

python parallel-processing dask dask-distributed

回答 1 投票 0

有没有办法将xarray保存到zarr文件中，并且可以在多个维度上附加？

标题：在 Xarray 中收集过程中高效地将数据附加到 Zarr 文件我目前正在实习，需要创建大型数据集，通常大小为数百 GB。我正在收集

python dask python-xarray dask-distributed zarr

回答 1 投票 0

Dask - 高 CPU 消耗卸载并行工作进程

我正在使用 dask 进行模拟的并行处理。它由一系列微分方程组成，这些微分方程使用使用 numba @jitdecor 编译的 numpy 数组进行数值求解...

python parallel-processing dask dask-distributed

回答 1 投票 0

如何在 dask 中使用用户定义的 fsspec 文件系统？

我在 fsspec 库中创建了自己的文件系统，我正在尝试从该文件系统对象读取 dask 数据帧以打开数据帧文件。但是，当我尝试执行此操作时出现错误...

dask dask-distributed fsspec

回答 1 投票 0

检测我是否在 dask Worker 中运行的最干净的方法是什么

给定一个 dask.distributed 集群（例如 LocalCluster），检测我是否在 Worker 实例中运行 python 代码的最可靠方法是什么？这可能是不严格的代码

dask dask-distributed

回答 1 投票 0

创建Dask集群时默认n_workers？

简单的问题。如果我使用以下代码创建 Dask 集群：从 dask.distributed 导入客户端客户端 = 客户端() 它将创造多少工人？我在一台机器上运行了这段代码，它

python dask cpu-usage dask-distributed

回答 1 投票 0

dask 如何处理大于内存的数据集？

我正在寻求有关使用 Dask 有效分析数据的指导。我选择使用 Dask 从 SQL 表 (dask.read_sql_table) 或 CSV 文件 (dask.read_csv) 延迟加载 DataFrame。我是你...

python dask dask-distributed

回答 1 投票 0

在 Dask 分布式 AWS ECS/EC2 集群中挂载文件夹

我正在使用 dask 分布式包创建 EC2/ECS 集群，我想读取工作人员中的 ML 模型，例如 def read_model(模型路径): 模型 = pickle.load(model_path) ...

amazon-ec2 amazon-ecs dask dask-distributed dask-kubernetes

回答 1 投票 0

如何在执行 Dask 任务之间保留一些 Python 对象状态？

我有一个 Dask 工作集群，我想用它们来使用复杂模型并行化预测操作。模型文件很大并且需要时间来加载，所以我使用 client.run 来获取所有

python dask dask-distributed

回答 1 投票 0

如何将日期时间字符串转换为 dask cudf 中的时间戳，然后按此列对数据帧进行排序

我想将日期时间字符串转换为 dask cudf 中的时间戳，然后按此列对数据帧进行排序。例子：将 dask_cudf 导入为 ddf 将 pandas 导入为 pd # 示例数据（替换为您的

pandas dataframe dask dask-distributed cudf

回答 1 投票 0

Dask 如何管理文件描述符

Dask 如何管理文件描述符？例如，从 hdf5 文件创建 dask.array 时。当数组大到足以进行分块时。创建的任务是否继承创建的文件描述符...

file-io io dask dask-distributed

回答 1 投票 0

读取文件csv并与多个worker、dask.distributed、dask.dataframe进行聚合

我有服务器 IP：192.168.33.10 启动 schudeler dask 调度程序 --host 0.0.0.0 这是该服务器中的主机，我有文件“/var/shared/job_skills.csv”，工作人员是 192.168.33.11，...

python dataframe dask dask-distributed dask-dataframe

回答 1 投票 0

在高故障率集群上使用Dask进行分布式链式计算？

我正在使用 Dask Bag 在特殊集群上运行一些简单的映射缩减计算：导入 dask.bag 作为包 summed_image = bag.from_sequence(my_ids).map(gen_image_from_ids).reduction(sum, sum).comp...

python mapreduce dask dask-distributed dask-dataframe

回答 2 投票 0

dask 调度程序的连接问题

我已经使用 GKE 设置了一个 kubernetes 集群并安装了 dask-kubernetes-operator。当我尝试像这样启动集群时集群：KubeCluster = KubeCluster(custom_cluster_spec="集群....

kubernetes google-kubernetes-engine dask dask-distributed dask-kubernetes

回答 1 投票 0

为什么dask显示的大小比数据（numpy数组）的实际大小小？

Dask 显示的大小比 numpy 数组的实际大小稍小。下面是一个大小正好为 32 Mb 的 numpy 数组的示例：将 dask 导入为 da 导入 dask.array 将 numpy 导入为 np 形状 = (1...

python numpy dask dask-distributed

回答 1 投票 0

dask-distributed 相关问题

最新问题