Dask是一个灵活的并行计算库,用于分析计算。它支持针对计算和大数据集合优化的动态任务调度。
Dask 与简单的顺序应用程序:将无限数据写入单个 NetCDF
我需要将所有无限制(目前已增长 1TB)数据导出到单个 NetCDF4 文件。 完整的 ETL 包括: 各种计算 然后将所有结果写入单个 NetCDF 文件
我确信有一个简单的解决方案,但我有一个 python 函数,它在运行时打印一些值,但是,我也想使用 dask 运行它,但我不想打印t 的输出...
我正在尝试在dask数据帧中的groupby聚合下提取一系列的“模式”。我可以找到模式的文档,但找不到如何在分组下使用它。 导入熊猫...
我正在尝试将大型 dask 数据帧上传到 sql 服务器,但出现错误并且看不到连接字符串有任何问题。我可以使用此连接连接到数据库...
我正在尝试uproot的dask功能,即将分支加载到dask数组中。 不幸的是,我不明白为什么在尝试对这些执行计算时会发生事情
如果包含的 dask.distributed 任务失败,为什么完美任务不会失败?
我正在使用 DaskTaskRunner 使用 Prefect 运行工作流程,它创建并保存 dask.distibuted.LocalCluster 实例。 在完美的任务中,我使用 dask_ml.RandomSearchCV 并拟合它,这......
dask 的 read_parquet 读取加载模式时应过滤掉的文件
我遇到了一个问题,我正在保存具有稍微不同架构的不同镶木地板文件,但它们具有共享分区列。我创建了以下内容作为最小的可复制示例...
statsmodels 在其提供的任何机器学习模型中使用时是否与 Dask 数据框不兼容?
我正在尝试 statsmodels 将我的数据拟合到逻辑回归模型(Logit),但我拥有的数据框不是 pandas 数据框,而是 Dask 数据框。 这是我的示例数据集:smarket_1: 回应
Dask 对特定列上的数据进行分组和排序会返回空结果,因为块中的数据为空
我有一个数据集,其中包含 Id 以及句子中特定 Id 的开始和停止。这是一个庞大的数据集,约有 2.5 亿行。 现在我需要处理这些数据以将这些 Id 转换为序列...
我想在 Databricks 上使用 Dask。这应该是可能的(我不明白为什么不可以)。如果我导入它,会发生以下两种情况之一,要么我收到导入错误,但当我安装分布式来解决这个问题时
某些后端端点以八位字节流的形式返回镶木地板文件。 在 Pandas 中我可以做这样的事情: 结果 = requests.get("https://..../file.parquet") df = pd.read_parquet(io.BytesIO(
我正在尝试比较 dask 数据帧的列名称,然后更改列数据类型,但是我的条件永远不会成立: 列名=“名称” print(f"列名称:{column_na...
为什么对 python 模块变量的修改没有传播到新的并行进程?
我有一个我想要执行的令人尴尬的并行任务列表。目前,我正在将这些任务的配置作为模块导入。 示例单行配置.py: result_folder = "aF...
对于我的一生,我不知道如何组合这两个数据框。我正在使用所有软件的最新版本,包括 Python、Pandas 和 Dask。 #pandasframe 有 10k 行和 3
如何从 JupyterLab 中删除/卸载 dask-labextension?
启动 JupyterLab 时,我从 dask-labextension 收到一条恼人的弹出消息: “达斯克服务器错误” 无法列出 Dask 集群:可能未安装/启用服务器扩展? ...
重新采样巨大的 Pandas Dataframe 会抛出 ArrayMemoryError
在工作中,我们有一台机器,它正在记录一些传感器值(例如温度、压力、速度等)。我有一个 csv 文件,其中包含这些值,大约有 6 到 700 万行和 13
dask read_csv 很快,但 dataframe 操作很慢
我正在尝试提高 read_csv() 的速度,然后使用 pandas 2 提高数据帧的速度。我今天尝试了 dask,read_csv() 确实非常快。但数据帧操作很慢。这是为什么?如何改进...
属性错误:使用 conda 安装 dask 后,模块“dask”没有属性“set_options”
我正在使用 annaconda,我刚刚使用下面的方法安装了 dask https://anaconda.org/conda-forge/dask conda install -c conda-forge dask 我可以使用 read_csv() 并且没有错误,但是,我收到了此错误。我是
dask 导入错误,数据框/客户端 - 版本与 pandas 冲突?
并非所有版本的 dask.dataframe 和 pandas 都兼容。这已经在这个问题中得到解决 我尝试了几种组合,但与更新的 dask 版本组合,...