dask 相关问题

Dask是一个灵活的并行计算库,用于分析计算。它支持针对计算和大数据集合优化的动态任务调度。

Dask:使用布尔索引进行就地修改导致意外行为

我想对我的 dask 数组 i 进行就地按位操作,并用掩码覆盖它。 移动平均维: 将 dask.array 导入为 da 我 = da.full((10,10),fill_value=4) c = da.ones(i.shape, dtype=bool) c[:,0] = F...

回答 1 投票 0

Dask:“DataFrame”对象没有属性“_meta”

我尝试连接 Ms SQL 服务器并将数据帧加载到 SQL 服务器中,但在连接时我不断收到“无属性'_meta'”。 我是 Dask Dataframe 的新手,有人可以帮助我吗....

回答 1 投票 0

dask:'TypeError(“read_row_group_file()得到意外的关键字参数\'infile\'”)'

我使用“conda install dask”安装了 Dask,但是当在 parquet 上使用函数时,我不断收到这些错误。我通过将 dask 版本降级到 2022.6.1 来解决这个问题,但是我会...

回答 1 投票 0

在 Python/Sage 中使用 Dask 进行并行编程,以便在良好的树分解上进行动态编程?

我正在尝试在 Sage/Python 中实现一种算法,用于计算从图 G 到图 H 的图同态,并在良好的树分解上进行动态编程。 我已经完成了这个算法...

回答 1 投票 0

Dask 将 dtype 设置为整数数组

使用 Dask,我尝试创建一个具有整数类型列表的列。例如: 将 dask.dataframe 导入为 dd 将 pandas 导入为 pd # 有一个 Dask Dataframe 示例 ddf = dd.from_pandas(pd.DataFrame...

回答 1 投票 0

Dask 保姆内存错误 - Worker 太慢而无法终止

我正在尝试使用 Dask 打开一个 jsonl 文件,当我第一次运行该程序时,我收到一条警告,称工作人员使用的内存超出了分配的内存,最终保姆试图终止该工作...

回答 1 投票 0

如何在Python中显示我的dask数组中的所有数据?

我有一个名为“sum”的变量,其中包含以下信息: sum (时间、纬度、经度)float32 dask.array 如何显示该变量的所有数据...

回答 2 投票 0

如何防止Dask中的from_delayed为每个输入创建一个分区?

我的代码旨在匹配两个大型数据集的名称。我使用的函数创建一个匹配名称的延迟列表。 应用 from_delayed 后,分区数量增加并等于

回答 1 投票 0

使用查询表达式设置数据帧划分

我认为我很清楚为什么 ddf.divisions = 不再受支持,但我不清楚的是我现在如何有效地做到这一点。有什么想法吗? 上面的代码结果...

回答 1 投票 0

创建Dask集群时默认n_workers?

简单的问题。如果我使用以下代码创建 Dask 集群: 从 dask.distributed 导入客户端 客户端 = 客户端() 它将创造多少工人?我在一台机器上运行了这段代码,它

回答 1 投票 0

dask 如何处理大于内存的数据集?

我正在寻求有关使用 Dask 有效分析数据的指导。 我选择使用 Dask 从 SQL 表 (dask.read_sql_table) 或 CSV 文件 (dask.read_csv) 延迟加载 DataFrame。 我是你...

回答 1 投票 0

在 Dask 分布式 AWS ECS/EC2 集群中挂载文件夹

我正在使用 dask 分布式包创建 EC2/ECS 集群,我想读取工作人员中的 ML 模型,例如 def read_model(模型路径): 模型 = pickle.load(model_path) ...

回答 1 投票 0

Python dask ValueError:无法识别的块管理器 dask - 必须是以下之一:[]

我正在使用 xarray 使用 xarray.open_mfdataset 连接多个 netcdf 文件。但是,当我尝试运行我的代码时,出现以下错误: -----------------------------------------------------------...

回答 1 投票 0

在 pandas/dask 中有效过滤逗号分隔的字符串

我有一些具有以下形状的数据(带标题) 名称、信号、日期 我的名字,1,2,3,4,5,6,7,8,9,10,19-04-2024 我的名字,1,2,3,4,5,6,7,8,9,10,19-04-2024 我对过滤行感兴趣...

回答 1 投票 0

如何提高大型 .nc 文件(70GB-350GB)的文件读取时间?

我正在使用 ERA5 大气数据以最大空间和时间分辨率计算全球任何地方的风速。这会产生一个包含一年数据的未压缩 70GB 文件,...

回答 1 投票 0

如何在dask数组中进行径向求和?

我正在尝试对 dask 数组的值进行径向求和,在该数组中我保留了分块数据,并对每个半径求和。将总和标准化为“像素&...

回答 1 投票 0

Dask Dataframe 错误:“Future”对象没有属性“drop”

我是 Dask 的新手。我创建了一个 dask 数据框,使用 drop 命令删除了一些列。此后我将执行其他操作。当我调用计算时,出现错误:“Future”对象...

回答 2 投票 0

我应该如何获得dask数据框的形状?

执行 .shape 给出以下错误。 AttributeError:“DataFrame”对象没有属性“shape” 我应该如何获得形状?

回答 6 投票 0

不带groupby的dask数据帧聚合(ddf.agg(['min','max'])?

Pandas 定义了 dataframe.agg,但 DASK 只定义了 dask_dataframe.groupby.agg。 有没有办法在 dask 中的列上进行多次聚合而无需 groupby ? 我知道describe()有统计列...

回答 1 投票 0

重新采样分块 xarray 会创建许多不需要的时间块

我正在使用 xarray 读取大型 netCDF 数据集,该数据集每 6 小时采样一次,并希望使用当天的平均值将其下采样到每日。我已经在空间上对数据集进行了分块。当我downsam之后...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.