dask 相关问题

Dask是一个灵活的并行计算库,用于分析计算。它支持针对计算和大数据集合优化的动态任务调度。

dask 调度程序的连接问题

我已经使用 GKE 设置了一个 kubernetes 集群并安装了 dask-kubernetes-operator。 当我尝试像这样启动集群时 集群:KubeCluster = KubeCluster(custom_cluster_spec="集群....

回答 1 投票 0

为什么dask显示的大小比数据(numpy数组)的实际大小小?

Dask 显示的大小比 numpy 数组的实际大小稍小。下面是一个大小正好为 32 Mb 的 numpy 数组的示例: 将 dask 导入为 da 导入 dask.array 将 numpy 导入为 np 形状 = (1...

回答 1 投票 0

无法在jupyter上dd.read_sql,内核崩溃

我来这里是因为我不明白我的问题。 我创建了一个 dockerfile + compose,它创建了 1 个 dask 调度程序和 2 个工作线程: docker-compose.yaml: 版本:'3.8' 服务: dask 调度程序...

回答 1 投票 0

如何使用普通 python(不是 ipython)查看或保存 <IPython.core.display.Image object>?

在学习dask的过程中,我尝试使用“visualize”方法/函数生成程序图可视化。但是,我不使用笔记本电脑。据我所知,我...

回答 2 投票 0

Xarray/Dask:map_block 计算 - 变量大小不一致

Python 代码的可行示例: 将 numpy 导入为 np 将 xarray 导入为 xr 从 scipy.optimize 导入 curve_fit 将 pandas 导入为 pd 将 xesmf 导入为 xe 从 dask.distributed 导入客户端 定义

回答 1 投票 0

使用dask数组时xarray.open_mfdataset(parallel=True)和xarray.concat有什么区别?

我正在使用Python处理经典的数据处理工作流程,即加载大量文件,预处理它们,连接它们并应用一些缩减。 目前,我正在使用...

回答 1 投票 0

AttributeError:导入 Dask 时模块“pandas.core.strings”没有属性“StringMethods”

即使 import dask 有效,我在尝试导入 dask.dataframe 接口时收到问题标题中所述的错误。 我当前的 dask 版本是 2022.7.0。可能是什么问题?

回答 2 投票 0

使用 dask 映射数组并返回数据帧

我正在使用 dask 和 zarr 来操作一些非常大的图像。 我设置了一个管道,可以对这些图像执行一些转换,然后我想测量图像的属性......

回答 1 投票 0

登录Dask

我正在使用 SLURM 集群,并且希望能够在我的任务中添加自定义日志,这些日志在检查特定工作人员时应显示在仪表板上的日志中。 或者我会...

回答 1 投票 0

Dask DataFrame - 根据分隔符将多个字符串列同时拆分为多行

我有一个大型 Dask DataFrame,看起来像这样: 铬 销售点 ID 参考文献 丙氨酸转氨酶 结果 Ensebl_geneid Ensembl_蛋白质ID Ensebl_transcriptid ETC 1 10000 1-10000-A-C A C 康11,康12,康13 ...

回答 1 投票 0

fastparquet 和 pyarrow 之间的比较?

经过一番搜索,我未能找到 fastparquet 和 pyarrow 的彻底比较。 我找到了这篇博文(速度的基本比较)。 以及一个 github 讨论,声称文件创建...

回答 6 投票 0

将多个 csv.gz 文件读取到 dask 数据帧中

我有多个 .csv.gz 文件,我正在尝试将其读入 dask 数据帧,我能够使用以下代码实现此目的: file_paths = glob.glob(file_pattern) @延迟 def read_csv(文件路径):

回答 1 投票 0

Dask 与简单的顺序应用程序:将无限数据写入单个 NetCDF

我需要将所有无限制(目前已增长 1TB)数据导出到单个 NetCDF4 文件。 完整的 ETL 包括: 各种计算 然后将所有结果写入单个 NetCDF 文件

回答 1 投票 0

控制 Dask LocalCluster 打印到控制台

我确信有一个简单的解决方案,但我有一个 python 函数,它在运行时打印一些值,但是,我也想使用 dask 运行它,但我不想打印t 的输出...

回答 1 投票 0

groupy 上的 Dask Dataframe 模式?

我正在尝试在dask数据帧中的groupby聚合下提取一系列的“模式”。我可以找到模式的文档,但找不到如何在分组下使用它。 导入熊猫...

回答 1 投票 0

预期 URI 为字符串 to_sql()

我正在尝试将大型 dask 数据帧上传到 sql 服务器,但出现错误并且看不到连接字符串有任何问题。我可以使用此连接连接到数据库...

回答 2 投票 0

连根拔起并打扫

我正在尝试uproot的dask功能,即将分支加载到dask数组中。 不幸的是,我不明白为什么在尝试对这些执行计算时会发生事情

回答 1 投票 0

如果包含的 dask.distributed 任务失败,为什么完美任务不会失败?

我正在使用 DaskTaskRunner 使用 Prefect 运行工作流程,它创建并保存 dask.distibuted.LocalCluster 实例。 在完美的任务中,我使用 dask_ml.RandomSearchCV 并拟合它,这......

回答 1 投票 0

dask 的 read_parquet 读取加载模式时应过滤掉的文件

我遇到了一个问题,我正在保存具有稍微不同架构的不同镶木地板文件,但它们具有共享分区列。我创建了以下内容作为最小的可复制示例...

回答 2 投票 0

statsmodels 在其提供的任何机器学习模型中使用时是否与 Dask 数据框不兼容?

我正在尝试 statsmodels 将我的数据拟合到逻辑回归模型(Logit),但我拥有的数据框不是 pandas 数据框,而是 Dask 数据框。 这是我的示例数据集:smarket_1: 回应

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.