Dask是一个灵活的并行计算库,用于分析计算。它支持针对计算和大数据集合优化的动态任务调度。
在 HTCondor 集群上运行模拟时如何处理 Dask 中的单个 Worker 故障?
我正在使用 Dask 在 HTCondor 集群上运行模拟。问题是,当其中一个模拟失败时,其余的工作人员就会被关闭。这是我启动模拟的代码...
Dask - 如何优化 dask 数据帧中每个分区第一行的计算?
我的总体目标是读取几个 csv 文件,进行一些计算,使用 to_parquet 函数中的partition_on 选项将它们保存为 parquet 数据库。 我之前无法重新索引和重新分区...
我有一些(~1000)个较小的数组和一个大数组。 小阵列的大小均相同,约为 4000x4000。 大数组的大小约为 1e5x1e5,是使用 dask.array.zeros 创建的,wi...
如何在 dask 中使用用户定义的 fsspec 文件系统?
我在 fsspec 库中创建了自己的文件系统,我正在尝试从该文件系统对象读取 dask 数据帧以打开数据帧文件。但是,当我尝试执行此操作时出现错误...
我正在使用 xarray/dask 处理大量非矩形卫星图像数据集。我从图像的足迹中提前知道,xarray 的大部分是无数据的(因为图像
检测我是否在 dask Worker 中运行的最干净的方法是什么
给定一个 dask.distributed 集群(例如 LocalCluster),检测我是否在 Worker 实例中运行 python 代码的最可靠方法是什么? 这可能是不严格的代码
我有一个类,它具有类似于以下上下文管理器的内容来创建 dask 客户端和集群: 类 some_class(): def __init__(self,engine_kwargs: dict = None): 自我。
如果我不能使用 Dask,如何使用 Dask 或 joblib Parallel 使 numpy 随机的结果可复制? get_random 函数更复杂,它操作 pandas.Dataframe 对象。 rng = n...
我有一个非常大的netcdf数据集,由1985年4月到2024年4月的每日块数据组成。由于数组被分为每日块,我经常使用 ds = xr.open_mfdataset(*.nc...
如何在 Google Colab 介质中使用 Python/Pyspark 高效地从大数据中过滤和检索特定记录?
我正在努力解决数据工程问题: 数据集特征 公共数据集 期间 虚拟机总数 数据集大小 Azure公共数据集V2 连续30天 2,695,548 (~2.6M ) 235GB(156GB
dask pybind11 如何从 client.submit() 获取正确的值
我有一个关于 python 返回对象值的问题。 使用 pybind11 与 python3 接口 C++ 函数 使用Dask做分布式计算 以下是 progeam 片段。 // -----...
我有一些 py 代码来比较给定的文件对。我正在使用 dask 进行惰性计算。有时其中一个文件中可能有一个空文件。当我尝试读取带有标题的空文件时...
Dask 性能警告:回退到非 pyarrow 代码路径可能会降低性能
我需要家庭帮助来处理 dask 在某些非 pyarrow 上运行操作时报告的新“性能警告:回退到非 pyarrow 代码路径,这可能会降低性能”
我想对我的 dask 数组 i 进行就地按位操作,并用掩码覆盖它。 移动平均维: 将 dask.array 导入为 da 我 = da.full((10,10),fill_value=4) c = da.ones(i.shape, dtype=bool) c[:,0] = F...
我尝试连接 Ms SQL 服务器并将数据帧加载到 SQL 服务器中,但在连接时我不断收到“无属性'_meta'”。 我是 Dask Dataframe 的新手,有人可以帮助我吗....
dask:'TypeError(“read_row_group_file()得到意外的关键字参数\'infile\'”)'
我使用“conda install dask”安装了 Dask,但是当在 parquet 上使用函数时,我不断收到这些错误。我通过将 dask 版本降级到 2022.6.1 来解决这个问题,但是我会...
在 Python/Sage 中使用 Dask 进行并行编程,以便在良好的树分解上进行动态编程?
我正在尝试在 Sage/Python 中实现一种算法,用于计算从图 G 到图 H 的图同态,并在良好的树分解上进行动态编程。 我已经完成了这个算法...
使用 Dask,我尝试创建一个具有整数类型列表的列。例如: 将 dask.dataframe 导入为 dd 将 pandas 导入为 pd # 有一个 Dask Dataframe 示例 ddf = dd.from_pandas(pd.DataFrame...
我正在尝试使用 Dask 打开一个 jsonl 文件,当我第一次运行该程序时,我收到一条警告,称工作人员使用的内存超出了分配的内存,最终保姆试图终止该工作...
我有一个名为“sum”的变量,其中包含以下信息: sum (时间、纬度、经度)float32 dask.array 如何显示该变量的所有数据...