dask 相关问题

Dask是一个灵活的并行计算库,用于分析计算。它支持针对计算和大数据集合优化的动态任务调度。

运行包含map_blocks和reduce的计算时出现类型错误

我很难诊断错误的原因。我的代码涉及对一些数组运行卷积(使用map_blocks),如果它们属于同一组变量,否则只是rec...

回答 0 投票 0

如何在dask数据框中进行多条件标记?

在 pandas 中,我可以在 np.where() 使用的不同列上使用多个条件标记新列,例如: 将 pandas 导入为 pd df = pd.DataFrame({'名称':['A','B','C'], 是...

回答 1 投票 0

如何使用 Dask 并行化自适应时间步进器

我想知道是否有可能将自适应时间步进器并行化,例如 Runge-Kutta 23 方法(或更高阶)与 Dask? 假设我有 10 个 Dask 工作人员(每个工作人员有 1 个核心/等级),我分配 1...

回答 0 投票 0

大数据集的数组索引

我有两个大数据集(A 和 B),每个数据集包含 200000 个图像文件,每个文件的形状为 (44000,44000)。数据类型是 unint16。 因此,如果读取了所有文件,它将是:(200000,44000,...

回答 0 投票 0

任务扩展问题:如果增加工人数量,打开的文件太多

我从命令行运行 SSH 集群。每个节点有 32 个 CPU。 dask ssh --hostfile $PBS_NODEFILE --nworkers 32 --nthreads 1 & 代码: 导入任务 从 dask.distributed 导入客户端 # 项是

回答 1 投票 0

在循环中计算范数会减慢 Dask 的计算速度

我在尝试使用 Dask 实现共轭梯度算法(用于教学目的)时,我意识到性能比简单的 numpy 实现要差得多。 经过几次尝试...

回答 2 投票 0

Dask 将元组列表转换为来自 pandas 的列表列表

我最近遇到一个问题,即在将 Pandas 数据帧转换为 Dask 数据帧后,Dask 将元组列表转换为来自 pandas 的列表,同时在 groupby 上应用函数。下面是一个...

回答 1 投票 0

使用 Dask 在一堆服务器上训练 pytroch-lightning 模型的最简单方法是什么?

我可以访问几十个没有 GPU 但可以完全控制软件的 Dask 服务器(可以擦除它们并安装不同的东西)并且想要加速 pytorch-lightning 模型 tr ...

回答 1 投票 0

Xarray 应用函数

我有一个大型数据集,我想对某些值组进行一些计算。 这工作正常,但我留下了以下信息: 数组块 字节 17.81 kiB 480 B...

回答 1 投票 0

如何将“dask_cudf”列转换为日期时间?

我们如何将字符串或纳秒的 dask_cudf 列转换为日期时间对象? to_datetime 在 pandas 和 cudf 中可用。请参阅下面的示例数据 进口大熊猫 导入 cudf # 与熊猫 df =

回答 0 投票 0

Dataframe groupby timestamp interval, non-overlapping, and sum of column values

如果另一列的值高于特定阈值,我正在尝试对给定时间戳间隔的条目进行分组,不重叠。 下面是一个简化的例子。 我有一个数据框...

回答 0 投票 0

尝试将 Dask on Kubernetes 与分布式工作人员一起使用时出错

我正在尝试在 Kubernetes/Azure 上部署一个 dask 应用程序。我有一个 Flask 应用程序服务器,它是 Dask 调度程序/工作程序的客户端。 我按照此处所述安装了 Dask 运算符: 哈...

回答 0 投票 0

dd.read_sql_table TypeError 问题:附加参数应命名为<dialectname>_<argument>,得到“自动加载”

我正在尝试使用 python pymssql 从 SQL 表中获取 760 万条记录。目前获取表记录需要一个多小时。我曾尝试过各种方法来减少这个持续时间......

回答 0 投票 0

Dask 遇到 read_sql_table 问题

我想对一些 SQL 大表使用 Dask,但是当我运行 dd.read_sql_table('ORDENES', str(engine.url), index_col='ID', npartitions=1) 我收到这个 TypeError: 附加参数应该是 na...

回答 2 投票 0

pyspark.pandas 是重写 pandas 数据框架的最佳解决方案(从劳动力的角度来看)吗?

我们遇到的问题是我们在 pandas 中有很多历史 python 代码,这意味着所有内容都在内存中处理(基于 pandas dataframe)。 我们正在使用更多数据和内存中的数据

回答 0 投票 0

使用 dask 连接到 aws redshift 时出错

我正在使用 dask 连接到 AWS Redshift 并查询数据库。尝试将连接字符串传递给 read_sql_query 方法时遇到错误。 # 连接到 aws redshift 集群 进口

回答 1 投票 0

如何在 dask DataFrame.iterrows 上显示进度条

我尝试在 dask 上使用 iterrows 时显示进度条。但是,它只显示(我假设的)第一个循环进度条。 将 dask.array 导入为 da 将 dask.dataframe 导入为 dd 来自dask.

回答 2 投票 0

多个索引的任务和最佳实践

看起来我遗漏了一些关于如何在 Dask 中使用 DataFrame 索引的非常基本的东西。 我有一个 DataFrame,其中大部分排序和过滤都是在列日期完成的,所以

回答 1 投票 0

Dask 忽略有关 parquet 数据集划分的知识

我在目录“dataset_path”中有一个镶木地板数据集,其中包含一个索引列日期。 元数据由 dask 创建,相关模式数据如下所示: 日期:时间...

回答 1 投票 0

Dask 教程因 distributed.nanny 而失败 - 警告 - 重新启动 worker

对 Dask 提供的可能性感兴趣,我从 dask 教程开始,并按照教程的说明准备我的笔记本电脑:克隆 repo 并制作一个新的 conda ...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.