dask 相关问题

Dask是一个灵活的并行计算库,用于分析计算。它支持针对计算和大数据集合优化的动态任务调度。

我可以从 HTTP(s) 八位字节流读取镶木地板吗?

某些后端端点以八位字节流的形式返回镶木地板文件。 在 Pandas 中我可以做这样的事情: 结果 = requests.get("https://..../file.parquet") df = pd.read_parquet(io.BytesIO(

回答 1 投票 0

比较列的 Dask 数据框条件不起作用

我正在尝试比较 dask 数据帧的列名称,然后更改列数据类型,但是我的条件永远不会成立: 列名=“名称” print(f"列名称:{column_na...

回答 1 投票 0

为什么对 python 模块变量的修改没有传播到新的并行进程?

我有一个我想要执行的令人尴尬的并行任务列表。目前,我正在将这些任务的配置作为模块导入。 示例单行配置.py: result_folder = "aF...

回答 1 投票 0

使用 .loc 从 Dask 访问值

对于我的一生,我不知道如何组合这两个数据框。我正在使用所有软件的最新版本,包括 Python、Pandas 和 Dask。 #pandasframe 有 10k 行和 3

回答 2 投票 0

如何从 JupyterLab 中删除/卸载 dask-labextension?

启动 JupyterLab 时,我从 dask-labextension 收到一条恼人的弹出消息: “达斯克服务器错误” 无法列出 Dask 集群:可能未安装/启用服务器扩展? ...

回答 2 投票 0

重新采样巨大的 Pandas Dataframe 会抛出 ArrayMemoryError

在工作中,我们有一台机器,它正在记录一些传感器值(例如温度、压力、速度等)。我有一个 csv 文件,其中包含这些值,大约有 6 到 700 万行和 13

回答 1 投票 0

dask read_csv 很快,但 dataframe 操作很慢

我正在尝试提高 read_csv() 的速度,然后使用 pandas 2 提高数据帧的速度。我今天尝试了 dask,read_csv() 确实非常快。但数据帧操作很慢。这是为什么?如何改进...

回答 1 投票 0

属性错误:使用 conda 安装 dask 后,模块“dask”没有属性“set_options”

我正在使用 annaconda,我刚刚使用下面的方法安装了 dask https://anaconda.org/conda-forge/dask conda install -c conda-forge dask 我可以使用 read_csv() 并且没有错误,但是,我收到了此错误。我是

回答 1 投票 0

dask 导入错误,数据框/客户端 - 版本与 pandas 冲突?

并非所有版本的 dask.dataframe 和 pandas 都兼容。这已经在这个问题中得到解决 我尝试了几种组合,但与更新的 dask 版本组合,...

回答 1 投票 0

将非常大的 csv 文件分割成较小的文件

Dask 是否适合并行读取大型 csv 文件并将其拆分为多个较小的文件?

回答 2 投票 0

dask:当convert-string = False时,read_json中的数据类型不匹配

当使用 dask 读取包含复杂字段的 JSON 行文件时,我无法获取正确的数据类型。 JSON-lines 文件看起来像这样 {“col1”:“一些文字”,“...

回答 1 投票 0

如何在Pandas merge_asof中设置容差范围?

我正在尝试使用 pandas merge_asof 和容差级别合并两个时间序列数据。 Pandas 文档很好地演示了如何使用公差,但我想知道是否可以使用 rang...

回答 1 投票 0

在带有列表元素的pandas表上使用dask中的map_partitions和power函数时出现问题

我使用Dask框架开发了以下Python代码: # 创建一个 Pandas 数据框 df = pd.DataFrame({ 'A': [[1], [2], [3], [4], [5]], “B”:[[6]、[7]、[8]、[9]、[10]] ...

回答 1 投票 0

Dask 将列存储数据高效索引为 dask 数组

我正在尝试找到一种有效的方法来索引数据集,该数据集按使用 Dask (Python) 加载的 zarr 数组中的列存储。我必须对其执行一些操作,其中索引所有列...

回答 1 投票 0

如何持久化加载了 dask.dataframe.from_delayed 的 dask 数据帧

我有一个以自定义格式存储的大型分片数据集,这将从 dask.dataframe.from_delayed 中受益匪浅 但是,当我尝试保留生成的数据帧时,我看到了奇怪的行为:...

回答 1 投票 0

如何在Python中使用exasol数据库中的大表进行统计分析?

我有一个包含 3600 万行的表,我需要运行不同的统计分析(例如假设检验、分布分析等)。 因为当我使用export_to_pandas时出现内存错误

回答 1 投票 0

Dask 数据框 - 包含 numpy 数组的列 - 转换为 parquet 错误

我有一个 dask 数据框,我正在尝试将其转换为镶木地板文件。该数据框的列是 numpy 数组,但列类型是“对象”。 当我尝试这样做时: 名称_函数 =

回答 1 投票 0

捕获任何错误或异常时关闭 dask 客户端和集群

我正在编写一个python函数来使用dask进行数据处理。如果出现任何错误或异常,我想自动关闭 dask 集群和客户端。所以我使用 with ... as: 语句。

回答 1 投票 0

Dask 数据框中的简单转换会产生意想不到的结果

我有一个看起来很简单的问题:在 Dask 数据框中,我需要为每组添加一列的累积最小值。我的数据框如下所示: 将 pandas 导入为 pd 将 numpy 导入为 np 进口达克。

回答 1 投票 0

如何指定dask用于临时文件的目录?

Dask 似乎写入 /tmp 文件夹。如何更改 dask 用于临时文件的文件夹?

回答 3 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.