Dask是一个灵活的并行计算库,用于分析计算。它支持针对计算和大数据集合优化的动态任务调度。
dask:当convert-string = False时,read_json中的数据类型不匹配
当使用 dask 读取包含复杂字段的 JSON 行文件时,我无法获取正确的数据类型。 JSON-lines 文件看起来像这样 {“col1”:“一些文字”,“...
我正在尝试使用 pandas merge_asof 和容差级别合并两个时间序列数据。 Pandas 文档很好地演示了如何使用公差,但我想知道是否可以使用 rang...
在带有列表元素的pandas表上使用dask中的map_partitions和power函数时出现问题
我使用Dask框架开发了以下Python代码: # 创建一个 Pandas 数据框 df = pd.DataFrame({ 'A': [[1], [2], [3], [4], [5]], “B”:[[6]、[7]、[8]、[9]、[10]] ...
我正在尝试找到一种有效的方法来索引数据集,该数据集按使用 Dask (Python) 加载的 zarr 数组中的列存储。我必须对其执行一些操作,其中索引所有列...
如何持久化加载了 dask.dataframe.from_delayed 的 dask 数据帧
我有一个以自定义格式存储的大型分片数据集,这将从 dask.dataframe.from_delayed 中受益匪浅 但是,当我尝试保留生成的数据帧时,我看到了奇怪的行为:...
如何在Python中使用exasol数据库中的大表进行统计分析?
我有一个包含 3600 万行的表,我需要运行不同的统计分析(例如假设检验、分布分析等)。 因为当我使用export_to_pandas时出现内存错误
Dask 数据框 - 包含 numpy 数组的列 - 转换为 parquet 错误
我有一个 dask 数据框,我正在尝试将其转换为镶木地板文件。该数据框的列是 numpy 数组,但列类型是“对象”。 当我尝试这样做时: 名称_函数 =
我正在编写一个python函数来使用dask进行数据处理。如果出现任何错误或异常,我想自动关闭 dask 集群和客户端。所以我使用 with ... as: 语句。
我有一个看起来很简单的问题:在 Dask 数据框中,我需要为每组添加一列的累积最小值。我的数据框如下所示: 将 pandas 导入为 pd 将 numpy 导入为 np 进口达克。
我按照(https://docs.dask.org/en/stable/delayed-collections.html)的说明为 Dask DataFrame 创建自定义数据加载器,基本上是这样的: 将 dask.dataframe 导入为...
错误显示“NotImplementedError:dd.DataFrame.apply仅支持axis = 1尝试:df.apply(func,axis = 1)” 这是我的代码行: # 使用dask读取CSV文件 导入 dask.dataframe ...
如何使用 Dask 在 xarray 中并行化 `sel()` 操作?
我有一个名为 speed 的值数组,我通过在查找表 speed_to_power_lut 中查找最接近的值,将其映射到另一个相同形状的值数组(称为 power)。这个过程
从_pandas创建dask数据框时如何为列表列指定正确的数据类型?
当使用 from_pandas 方法创建 dask Dataframe 时,之前正确的 dtype 对象变成了 string[pyarrow]。 将 dask.dataframe 导入为 dd 将 pandas 导入为 pd df = pd.DataFrame( { ...
我有一个大的 csv(+1000000 行),我需要对其进行正则表达式搜索和替换功能。简而言之,我需要获取两列并找到它们之间的匹配项;然后使用匹配的行来表示...
我正在尝试计算从 0 开始到文件长度(62977)的元组中所有可能的对组合,因此我得到这个结果作为单个 DASK 系列\数据帧,没有重复: (0,...
compute() 命令不适用于 python 中的 dask 系列
我正在尝试计算大规模数据的成对比例,其中每一列都是一个单独的样本,如下所示(这是一个小例子): 0 1 2 0 34.04 56.55 ...
使用dask.dataframe.read_csv时出现unicode错误
我遇到了错误 UnicodeDecodeError: 'utf-8' 编解码器无法解码位置 0 中的字节 0xac: 无效的起始字节 2023-09-19 13:04:11,361 - distribution.core - 错误 - 异常处理...
我想使用 YarnCluster 在 EMR 上运行 dask。 我使用了下面的引导脚本,但我已经在 SSH 控制台中运行了这些指令。 #!/bin/bash HELP="用法:bootstrap-dask [选项] AWS EMR 示例
我想在不同环境中运行的多个Python脚本之间共享数据。 我的数据以 Pandas Dataframes(和 dask dataframes)的形式出现。通常,数据帧包含浮点数、整数、stri...