dask 相关问题

Dask是一个灵活的并行计算库,用于分析计算。它支持针对计算和大数据集合优化的动态任务调度。

Dask 数据框中的简单转换会产生意想不到的结果

我有一个看起来很简单的问题:在 Dask 数据框中,我需要为每组添加一列的累积最小值。我的数据框如下所示: 将 pandas 导入为 pd 将 numpy 导入为 np 进口达克。

回答 1 投票 0

如何指定dask用于临时文件的目录?

Dask 似乎写入 /tmp 文件夹。如何更改 dask 用于临时文件的文件夹?

回答 3 投票 0

Dask from_delayed() 导致内存使用率过高

我按照(https://docs.dask.org/en/stable/delayed-collections.html)的说明为 Dask DataFrame 创建自定义数据加载器,基本上是这样的: 将 dask.dataframe 导入为...

回答 1 投票 0

我使用 Dask 读取我的 7GB CSV,但现在出现错误

错误显示“NotImplementedError:dd.DataFrame.apply仅支持axis = 1尝试:df.apply(func,axis = 1)” 这是我的代码行: # 使用dask读取CSV文件 导入 dask.dataframe ...

回答 1 投票 0

如何使用 Dask 在 xarray 中并行化 `sel()` 操作?

我有一个名为 speed 的值数组,我通过在查找表 speed_to_power_lut 中查找最接近的值,将其映射到另一个相同形状的值数组(称为 power)。这个过程

回答 1 投票 0

从_pandas创建dask数据框时如何为列表列指定正确的数据类型?

当使用 from_pandas 方法创建 dask Dataframe 时,之前正确的 dtype 对象变成了 string[pyarrow]。 将 dask.dataframe 导入为 dd 将 pandas 导入为 pd df = pd.DataFrame( { ...

回答 1 投票 0

网络中的正则表达式字段匹配和替换-Python

我有一个大的 csv(+1000000 行),我需要对其进行正则表达式搜索和替换功能。简而言之,我需要获取两列并找到它们之间的匹配项;然后使用匹配的行来表示...

回答 1 投票 0

python计算大n的两个元组

我正在尝试计算从 0 开始到文件长度(62977)的元组中所有可能的对组合,因此我得到这个结果作为单个 DASK 系列\数据帧,没有重复: (0,...

回答 2 投票 0

compute() 命令不适用于 python 中的 dask 系列

我正在尝试计算大规模数据的成对比例,其中每一列都是一个单独的样本,如下所示(这是一个小例子): 0 1 2 0 34.04 56.55 ...

回答 1 投票 0

使用dask.dataframe.read_csv时出现unicode错误

我遇到了错误 UnicodeDecodeError: 'utf-8' 编解码器无法解码位置 0 中的字节 0xac: 无效的起始字节 2023-09-19 13:04:11,361 - distribution.core - 错误 - 异常处理...

回答 1 投票 0

我无法在 AWS EMR 上运行 dask 纱线集群

我想使用 YarnCluster 在 EMR 上运行 dask。 我使用了下面的引导脚本,但我已经在 SSH 控制台中运行了这些指令。 #!/bin/bash HELP="用法:bootstrap-dask [选项] AWS EMR 示例

回答 1 投票 0

如何在两个不同的Python脚本和版本之间共享大型数据帧?

我想在不同环境中运行的多个Python脚本之间共享数据。 我的数据以 Pandas Dataframes(和 dask dataframes)的形式出现。通常,数据帧包含浮点数、整数、stri...

回答 1 投票 0

Dask 分布式 - 由工作方法共享的有状态全局参数

我正在使用 Dask 设置集群。现在我正在本地主机上设置调度程序和工作人员。 集群 = SSHCluster(["localhost", "localhost"],

回答 1 投票 0

将 tif 写入数据立方体

我有一个 .tif 文件的文件夹,我想将它们合并到数据立方体中。我所说的 datacube 是指 netcdf 文件或 zarr 文件。目标是如果我在 Python 中打开这个数据立方体,我可以访问 3D 数组

回答 1 投票 0

集群上数据的Dask和持久化

我正在开发一个使用历史数据和传入数据进行分析的项目。我想了解如何管理更新 dask 上的传入数据,而不必分派所有

回答 1 投票 0

如何惰性地 GroupShuffleSplit parquet 数据框?

我有一个镶木地板数据集,如下所示(我使用的是极坐标,但任何数据框库都可以): df = pl.DataFrame( { “匹配 ID”:[ 1, 1, 1, 2, 2, ...

回答 1 投票 0

在处理两个不同大小的输入数组时,如何有效利用 Dask `map_overlap` 函数?

我正在使用两个变量,可以将其视为矩阵 - 维度为 (100, 100) 的“a”和维度为 (200, 200) 的“b”。我的目标是执行涉及“a”和“...”的计算

回答 1 投票 0

`ValueError:无法使用 Dask DataFrame 从重复轴重新索引

我一直在尝试调整我的代码以利用Dask来利用多台机器进行处理。虽然初始数据加载并不耗时,但后续处理大约需要 12 个小时......

回答 1 投票 0

dask 持久行为不一致

如果我注释掉这一行,我发现 dask 的奇怪行为仍然存在 # client = Client(memory_limit='20GB',n_workers=1) # 连接到分布式集群并覆盖默认值 并执行

回答 1 投票 0

解压元组列表的 dask 延迟对象

我有一个返回两个元素的元组的函数。使用 pool starmap 调用该函数来生成元组列表,并将其解压缩为两个列表。 def 函数(): #...一些操作 重新...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.