Dask是一个灵活的并行计算库,用于分析计算。它支持针对计算和大数据集合优化的动态任务调度。
我正在清理我的文本数据,然后想将其保存到 csv。定义的清理函数工作正常,但是当 to_csv() 部分出现时,问题也随之而来。 也许有人遇到过类似的情况
我正在尝试学习使用 dask 来完成我的机器学习项目。 我的数据集太大,无法使用 Pandas,所以我必须保持延迟加载。 这里有一个小样本来展示它是如何设置的:...
我经常遇到这样的问题:Dask 在几个任务上随机停止,这些任务通常与从网络上的不同节点读取数据相关(更多详细信息请参见下文)。 这可能会发生...
使用 --multiprocessing-fork 了解当前进程是否是多处理池的一部分
我需要找到一种方法让 python 进程确定它是否作为多处理池的一部分启动。 我正在使用 dask 来并行计算,使用 dask.distributed.LocalCluster。对于用户体验
如何将 dask_cudf 应用函数的输出附加到原始 dask_cudf?
我正在将一个函数(例如字母频率)应用于由一列固定长度的单词组成的 dask_cudf 数据帧。 我正在尝试合并输出或将输出附加到或...
在 python xarray 中,如何在不加载整个数据数组的情况下创建惰性变量并对其进行子集化?
我正在尝试创建一个 python 函数,该函数使用 xarray 打开远程数据集(在 opendap 服务器中)并自动延迟创建新变量。一个用例是计算幅度和
将 dask 升级到版本 1.15.0 后,我的日志记录停止工作。 我已经使用logging.config.dictConfig来初始化python日志记录工具,并且之前这些设置传播...
通过多个自定义函数优化 Pandas GroupBy 和大型数据集的聚合
我正在处理一个大型 Pandas 数据框(大约 3050 万行),我需要按多列进行分组并应用不同的自定义聚合函数。然而,目前的表现是
我是 Dask 新手。我目前正在由 SLURM 管理的 HPC 中工作,其中包含一些计算节点(执行作业的节点)和登录节点(我通过 SSH 访问该节点以发送 SLURM 作业)。我是...
在下面,我想在一个文件中捕获“dask_client_log_msg”和其他任务日志,在一个单独的文件中捕获“dask_worker_log_msg”和其他客户端日志。显然客户会...
我正在尝试使用 dask 在 python 中并行化时间序列预测。数据的格式是每个时间序列都是一列,并且它们具有共同的每月日期索引。我有一个习惯
有没有一种有效的方法来更新/替换python中dask数组的特定值?
所以我有一个 dask 整数数组(1 x 8192),我想找到一种有效的方法来替换特定值。 这是我当前使用的代码,速度非常慢,因为 dask 是不可变的,...
xarray 和 dask:高效处理大型 netcdf 文件
我正在尝试对一个非常大的netcdf文件进行简单的计算,并且正在努力加快速度——可能是因为我主要用julia和R编程。我认为xarray/dask是最好的方法...
我有两个DataFrame(df和locations_df),并且都有经度和纬度值。我试图找到每行locations_df 2 公里范围内的df 点。 我尝试对函数进行矢量化...
当我从 pandas 创建一个具有 1 个分区的 dask 数据框,然后在其上调用 map_partitions() 时,它似乎被调用了两次。 如果我有5个分区,则调用6次。 一般来说,函数是
处理大型 CSV 文件时如何优化 Python 脚本的性能?
我正在开发一个处理非常大的 CSV 文件(大约 5GB)的 Python 脚本,但我注意到严重的性能问题。我想优化我的代码以获得更高的效率。这是一个
如何让 Dask 工作人员在处理大型数据集时保持忙碌,以防止他们耗尽任务?
我正在尝试使用Python中的Dask分布式计算来处理大型数据集(大约100万个任务)。 (我正在从数据库获取数据来处理它,并且正在检索大约 1M 行)。我在这里
我有一个包含多个公司和国家/地区数据的数据框,我正在尝试使用函数并行转换这些数据。数据采用这样的格式,但要大得多,并且有更多的信息...
我正在尝试模块化使用 Dask 的函数,但我不断遇到错误“没有名为“setup”的模块”。我无法导入任何与 Dask 相关的本地模块,目前,
我正在尝试在 Azure Databricks 中安装 Dask,为此,我遵循以下文档:https://github.com/dask-contrib/dask-databricks 首先,我创建了初始化脚本和...