Dask是一个灵活的并行计算库,用于分析计算。它支持针对计算和大数据集合优化的动态任务调度。
Pandas / Dask - 对大型 CSV 进行分组和聚合会消耗内存和/或需要相当长的时间
我正在尝试使用一个小型 POC 来尝试分组和聚合,以减少 pandas 和 Dask 中大型 CSV 的数据,并且我观察到内存使用率很高和/或比我预期的处理时间慢......
在 pandas 中,我可以通过以下方式创建带有 pyarrow dtype 的系列: >>> 将 pandas 导入为 pd >>> s = pd.Series([1,2,3]).astype("int64[pyarrow]") >>> s.dtype
根据这个答案,我一直在尝试使用dask从压缩目录中读取多个CSV。但是,我收到一条很长的错误消息,我无法理解。我认为重要的一行我...
我有一个由多个 2d DataFrame 组成的 dask 数据框(每个分区都是一个 2d DataFrame)。我想要最有效的方法来找到生成单个 2d DataFra 的所有分区的平均值...
我需要在dask-distributed中进行简单的fifo调度
我有多个客户端作为服务器、一个调度程序和一个具有 3 个线程的工作线程。 我的客户端是异步的,当我收到请求时,他们使用分布式客户端。 调用看起来像这样:
我正在使用 dask.distrinulated,并且我有两个 dask DataFrame A 和 B。两者都有相同数量的分区,每个分区都是一个 2D DataFrame,包含相同的列和行,并且具有 f...
如何在使用dask打开的xarray数据集中使用一维函数metpy.parcel_profile
我无法在4D xarray数据集(用dask分段)上计算parcel_profile(1D函数)。 你好, 我真的需要帮助,我正在研究有关压力水平的 ERA5 每小时数据。我已经提取了亲戚
我有一个非常大的距离矩阵,我需要迭代每个值并在条件为真时更新距离。 这是我的 Pandas/Numpy 代码块: dist_mat = pd.read_csv() 日期...
运行包含map_blocks和reduce的计算时出现类型错误
我很难诊断错误的原因。我的代码涉及对一些数组运行卷积(使用map_blocks),如果它们属于同一组变量,否则只是rec...
在 pandas 中,我可以在 np.where() 使用的不同列上使用多个条件标记新列,例如: 将 pandas 导入为 pd df = pd.DataFrame({'名称':['A','B','C'], 是...
我想知道是否有可能将自适应时间步进器并行化,例如 Runge-Kutta 23 方法(或更高阶)与 Dask? 假设我有 10 个 Dask 工作人员(每个工作人员有 1 个核心/等级),我分配 1...
我有两个大数据集(A 和 B),每个数据集包含 200000 个图像文件,每个文件的形状为 (44000,44000)。数据类型是 unint16。 因此,如果读取了所有文件,它将是:(200000,44000,...
我从命令行运行 SSH 集群。每个节点有 32 个 CPU。 dask ssh --hostfile $PBS_NODEFILE --nworkers 32 --nthreads 1 & 代码: 导入任务 从 dask.distributed 导入客户端 # 项是
我在尝试使用 Dask 实现共轭梯度算法(用于教学目的)时,我意识到性能比简单的 numpy 实现要差得多。 经过几次尝试...
我最近遇到一个问题,即在将 Pandas 数据帧转换为 Dask 数据帧后,Dask 将元组列表转换为来自 pandas 的列表,同时在 groupby 上应用函数。下面是一个...
使用 Dask 在一堆服务器上训练 pytroch-lightning 模型的最简单方法是什么?
我可以访问几十个没有 GPU 但可以完全控制软件的 Dask 服务器(可以擦除它们并安装不同的东西)并且想要加速 pytorch-lightning 模型 tr ...
我有一个大型数据集,我想对某些值组进行一些计算。 这工作正常,但我留下了以下信息: 数组块 字节 17.81 kiB 480 B...
我们如何将字符串或纳秒的 dask_cudf 列转换为日期时间对象? to_datetime 在 pandas 和 cudf 中可用。请参阅下面的示例数据 进口大熊猫 导入 cudf # 与熊猫 df =
Dataframe groupby timestamp interval, non-overlapping, and sum of column values
如果另一列的值高于特定阈值,我正在尝试对给定时间戳间隔的条目进行分组,不重叠。 下面是一个简化的例子。 我有一个数据框...
尝试将 Dask on Kubernetes 与分布式工作人员一起使用时出错
我正在尝试在 Kubernetes/Azure 上部署一个 dask 应用程序。我有一个 Flask 应用程序服务器,它是 Dask 调度程序/工作程序的客户端。 我按照此处所述安装了 Dask 运算符: 哈...