dask 相关问题

Dask是一个灵活的并行计算库，用于分析计算。它支持针对计算和大数据集合优化的动态任务调度。

我按照（https://docs.dask.org/en/stable/delayed-collections.html）的说明为 Dask DataFrame 创建自定义数据加载器，基本上是这样的：将 dask.dataframe 导入为...

python pandas dask dask-distributed

回答 1 投票 0

我使用 Dask 读取我的 7GB CSV，但现在出现错误

错误显示“NotImplementedError：dd.DataFrame.apply仅支持axis = 1尝试：df.apply（func，axis = 1）” 这是我的代码行： # 使用dask读取CSV文件导入 dask.dataframe ...

python dask

回答 1 投票 0

如何使用 Dask 在 xarray 中并行化 `sel()` 操作？

我有一个名为 speed 的值数组，我通过在查找表 speed_to_power_lut 中查找最接近的值，将其映射到另一个相同形状的值数组（称为 power）。这个过程

python dask python-xarray

回答 1 投票 0

从_pandas创建dask数据框时如何为列表列指定正确的数据类型？

当使用 from_pandas 方法创建 dask Dataframe 时，之前正确的 dtype 对象变成了 string[pyarrow]。将 dask.dataframe 导入为 dd 将 pandas 导入为 pd df = pd.DataFrame( { ...

python dask

回答 1 投票 0

网络中的正则表达式字段匹配和替换-Python

我有一个大的 csv（+1000000 行），我需要对其进行正则表达式搜索和替换功能。简而言之，我需要获取两列并找到它们之间的匹配项；然后使用匹配的行来表示...

python regex optimization replace dask

回答 1 投票 0

python计算大n的两个元组

我正在尝试计算从 0 开始到文件长度（62977）的元组中所有可能的对组合，因此我得到这个结果作为单个 DASK 系列\数据帧，没有重复： (0,...

python pandas tuples combinations dask

回答 2 投票 0

compute() 命令不适用于 python 中的 dask 系列

我正在尝试计算大规模数据的成对比例，其中每一列都是一个单独的样本，如下所示（这是一个小例子）： 0 1 2 0 34.04 56.55 ...

python pandas dask delay dask-delayed

回答 1 投票 0

使用dask.dataframe.read_csv时出现unicode错误

我遇到了错误 UnicodeDecodeError: 'utf-8' 编解码器无法解码位置 0 中的字节 0xac: 无效的起始字节 2023-09-19 13:04:11,361 - distribution.core - 错误 - 异常处理...

python unicode utf-8 dask read.csv

回答 1 投票 0

我无法在 AWS EMR 上运行 dask 纱线集群

我想使用 YarnCluster 在 EMR 上运行 dask。我使用了下面的引导脚本，但我已经在 SSH 控制台中运行了这些指令。 #!/bin/bash HELP="用法：bootstrap-dask [选项] AWS EMR 示例

jupyter-notebook dask hadoop-yarn amazon-emr dask-distributed

回答 1 投票 0

如何在两个不同的Python脚本和版本之间共享大型数据帧？

我想在不同环境中运行的多个Python脚本之间共享数据。我的数据以 Pandas Dataframes（和 dask dataframes）的形式出现。通常，数据帧包含浮点数、整数、stri...

python python-3.x pandas dask

回答 1 投票 0

Dask 分布式 - 由工作方法共享的有状态全局参数

我正在使用 Dask 设置集群。现在我正在本地主机上设置调度程序和工作人员。集群 = SSHCluster(["localhost", "localhost"],

python cluster-computing dask dask-distributed

回答 1 投票 0

将 tif 写入数据立方体

我有一个 .tif 文件的文件夹，我想将它们合并到数据立方体中。我所说的 datacube 是指 netcdf 文件或 zarr 文件。目标是如果我在 Python 中打开这个数据立方体，我可以访问 3D 数组

python pandas dask ram python-xarray

回答 1 投票 0

集群上数据的Dask和持久化

我正在开发一个使用历史数据和传入数据进行分析的项目。我想了解如何管理更新 dask 上的传入数据，而不必分派所有

python python-3.x dask directed-acyclic-graphs dask-distributed

回答 1 投票 0

如何惰性地 GroupShuffleSplit parquet 数据框？

我有一个镶木地板数据集，如下所示（我使用的是极坐标，但任何数据框库都可以）： df = pl.DataFrame( { “匹配 ID”：[ 1, 1, 1, 2, 2, ...

python pandas scikit-learn dask parquet

回答 1 投票 0

在处理两个不同大小的输入数组时，如何有效利用 Dask `map_overlap` 函数？

我正在使用两个变量，可以将其视为矩阵 - 维度为 (100, 100) 的“a”和维度为 (200, 200) 的“b”。我的目标是执行涉及“a”和“...”的计算

dask

回答 1 投票 0

`ValueError：无法使用 Dask DataFrame 从重复轴重新索引

我一直在尝试调整我的代码以利用Dask来利用多台机器进行处理。虽然初始数据加载并不耗时，但后续处理大约需要 12 个小时......

python python-3.x pandas dask dask-dataframe

回答 1 投票 0

dask 持久行为不一致

如果我注释掉这一行，我发现 dask 的奇怪行为仍然存在 # client = Client(memory_limit='20GB',n_workers=1) # 连接到分布式集群并覆盖默认值并执行

python python-3.x dask dask-distributed

回答 1 投票 0

解压元组列表的 dask 延迟对象

我有一个返回两个元素的元组的函数。使用 pool starmap 调用该函数来生成元组列表，并将其解压缩为两个列表。 def 函数(): #...一些操作重新...

python python-3.x multiprocessing dask dask-delayed

回答 2 投票 0

具有多个参数的 Dask 映射方法

我想将 Client.map 方法应用于使用多个参数的函数，就像多处理的 Pool.starmap 方法一样。这是一个例子从 contextlib 导入 contextmanager 从...

python python-3.x dask dask-distributed

回答 1 投票 0

Pandas 与 Dask 排序列以及字符串和数字的索引

鉴于：小样本熊猫数据框：将 pandas 导入为 pd 将 numpy 导入为 np 将 dask.dataframe 导入为 dd df = pd.DataFrame({"usr": ["ip1", "ip7", "ip12", &q...

python pandas dask

回答 1 投票 0

dask 相关问题

最新问题