Dask是一个灵活的并行计算库,用于分析计算。它支持针对计算和大数据集合优化的动态任务调度。
某些后端端点以八位字节流的形式返回镶木地板文件。 在 Pandas 中我可以做这样的事情: 结果 = requests.get("https://..../file.parquet") df = pd.read_parquet(io.BytesIO(
我正在尝试比较 dask 数据帧的列名称,然后更改列数据类型,但是我的条件永远不会成立: 列名=“名称” print(f"列名称:{column_na...
为什么对 python 模块变量的修改没有传播到新的并行进程?
我有一个我想要执行的令人尴尬的并行任务列表。目前,我正在将这些任务的配置作为模块导入。 示例单行配置.py: result_folder = "aF...
对于我的一生,我不知道如何组合这两个数据框。我正在使用所有软件的最新版本,包括 Python、Pandas 和 Dask。 #pandasframe 有 10k 行和 3
如何从 JupyterLab 中删除/卸载 dask-labextension?
启动 JupyterLab 时,我从 dask-labextension 收到一条恼人的弹出消息: “达斯克服务器错误” 无法列出 Dask 集群:可能未安装/启用服务器扩展? ...
重新采样巨大的 Pandas Dataframe 会抛出 ArrayMemoryError
在工作中,我们有一台机器,它正在记录一些传感器值(例如温度、压力、速度等)。我有一个 csv 文件,其中包含这些值,大约有 6 到 700 万行和 13
dask read_csv 很快,但 dataframe 操作很慢
我正在尝试提高 read_csv() 的速度,然后使用 pandas 2 提高数据帧的速度。我今天尝试了 dask,read_csv() 确实非常快。但数据帧操作很慢。这是为什么?如何改进...
属性错误:使用 conda 安装 dask 后,模块“dask”没有属性“set_options”
我正在使用 annaconda,我刚刚使用下面的方法安装了 dask https://anaconda.org/conda-forge/dask conda install -c conda-forge dask 我可以使用 read_csv() 并且没有错误,但是,我收到了此错误。我是
dask 导入错误,数据框/客户端 - 版本与 pandas 冲突?
并非所有版本的 dask.dataframe 和 pandas 都兼容。这已经在这个问题中得到解决 我尝试了几种组合,但与更新的 dask 版本组合,...
dask:当convert-string = False时,read_json中的数据类型不匹配
当使用 dask 读取包含复杂字段的 JSON 行文件时,我无法获取正确的数据类型。 JSON-lines 文件看起来像这样 {“col1”:“一些文字”,“...
我正在尝试使用 pandas merge_asof 和容差级别合并两个时间序列数据。 Pandas 文档很好地演示了如何使用公差,但我想知道是否可以使用 rang...
在带有列表元素的pandas表上使用dask中的map_partitions和power函数时出现问题
我使用Dask框架开发了以下Python代码: # 创建一个 Pandas 数据框 df = pd.DataFrame({ 'A': [[1], [2], [3], [4], [5]], “B”:[[6]、[7]、[8]、[9]、[10]] ...
我正在尝试找到一种有效的方法来索引数据集,该数据集按使用 Dask (Python) 加载的 zarr 数组中的列存储。我必须对其执行一些操作,其中索引所有列...
如何持久化加载了 dask.dataframe.from_delayed 的 dask 数据帧
我有一个以自定义格式存储的大型分片数据集,这将从 dask.dataframe.from_delayed 中受益匪浅 但是,当我尝试保留生成的数据帧时,我看到了奇怪的行为:...
如何在Python中使用exasol数据库中的大表进行统计分析?
我有一个包含 3600 万行的表,我需要运行不同的统计分析(例如假设检验、分布分析等)。 因为当我使用export_to_pandas时出现内存错误
Dask 数据框 - 包含 numpy 数组的列 - 转换为 parquet 错误
我有一个 dask 数据框,我正在尝试将其转换为镶木地板文件。该数据框的列是 numpy 数组,但列类型是“对象”。 当我尝试这样做时: 名称_函数 =
我正在编写一个python函数来使用dask进行数据处理。如果出现任何错误或异常,我想自动关闭 dask 集群和客户端。所以我使用 with ... as: 语句。
我有一个看起来很简单的问题:在 Dask 数据框中,我需要为每组添加一列的累积最小值。我的数据框如下所示: 将 pandas 导入为 pd 将 numpy 导入为 np 进口达克。