Dask是一个灵活的并行计算库,用于分析计算。它支持针对计算和大数据集合优化的动态任务调度。
在 K8s 上使用 helm3 的 dask-getway:错误:无法安装 CRD crds/daskclusters.yaml
我正在按照说明在 K8s 集群上设置 Dask。我使用的是 MacOS,K8s 在 Docker Desktop 上运行,kubectl 版本 1.22.5 和 helm 版本 3.8.0。添加存储库后,下载
有没有办法将xarray保存到zarr文件中,并且可以在多个维度上附加?
标题:在 Xarray 中收集过程中高效地将数据附加到 Zarr 文件 我目前正在实习,需要创建大型数据集,通常大小为数百 GB。我正在收集
DaskLGBMClassifier.fit() 错误:“Future”对象没有属性“get_params”
我正在尝试 LGBM 的 Dask API,当我安装 DaskLGBMClassifier 时,出现以下错误: “Future”对象没有属性“get_params” 我尝试在原始代码上调试它。变量...
我有 将 dask.dataframe 导入为 dd 将 pandas 导入为 pd s = dd.from_pandas(pd.Series([1,2,3])) 我正在尝试制作另一个系列 s_other ,它应该与 s 一样,但是: 所有值都应为 999...
我在使用 to_csv("s3://mys3bucket/result.csv") 时收到此错误 异常:[Errno 写入失败:mys3bucket/result.csv/2489.part] 调用 PutObject 时发生错误 (AccessDenied)
在 Dask 中排序 基于这个答案我想动态构建组合列 df_post['sort_column'] = df_post.apply(lambda r:str([r[col1],r[col2],r[col3]]), axis=1) df_post = df_post.set_in...
为什么通过 ENTRYPOINT 和 tini 安装依赖项?
我有一个关于 dask-docker 上 Dockerfile 实现的问题。 来自 Continumio/miniconda3:4.8.2 运行 conda install --yes \ -c conda-forge \ python==3.8 \ [...] &...
我正在使用 dask 进行模拟的并行处理。它由一系列微分方程组成,这些微分方程使用使用 numba @jitdecor 编译的 numpy 数组进行数值求解...
使用顺序 dask.bag.map 操作时 dask bag 是否保留顺序
据说dask bag不保秩序。然而,dast.bag.map 给出的示例暗示了 https://docs.dask.org 中的顺序被保留,或者至少是可预测的......
有一种方法可以在 jupyter 笔记本中生成 HTML 高级图,如 dasks 的文档所示:https://docs.dask.org/en/stable/graphviz.html#high-level-graph-html -表示 服用...
将多个大型 CSV 文件加载到镶木地板中,同时为文件名创建新列
我收集了 CSV 文件,最多 1000 个,每个未压缩的大小约为 1 GB。我想从它们创建一个镶木地板数据集。 在这样做时,我想记录每组行来自哪个文件......
我有一些镶木地板数据,如下所示: 名称、次数、结果 ABC,500,“123,456,789,...” ABC,499,“321,456,789...” 结果字符串中存在 Count 个数字。我会...
我有一个包含 530 个类的数据集,并且它非常不平衡,因此由于我是处理如此大的数据集的新手,所以我对前 10 个大多数类进行了欠采样,然后将其与其他数据连接起来......
我想转换 dask.DataFrame 的一个分类列。 这是我现在正在做的事情: # 玩具示例 df = pd.DataFrame({'文件': ['A.csv', 'B.csv', 'C.csv']}) df['文件'] = df.file.astype('猫...
我正在使用《Fast Python:大型数据集的高性能技术》(2023)一书学习 dask。我一直在尝试运行下面显示的示例(第 241 页),该示例使用税收文件...
使用 dask 高效扩展 scikit-learn 管道以处理大型数据集
我正在使用 scikit-learn 开发这个 ML 项目,并面临一个大数据集不适合内存的问题。我听说 Dask 可用于扩展大型数据集的管道......
我正在尝试加快 pandas.DataFrame 上的一些计算速度。每次迭代的大约一半时间仅用于创建数据帧的副本(它有约 150 万行和 10 列......
从 len 18000 的 Dask Dataframe 中采样 n= 2000 会产生错误 当“replace=False”时,无法获取比总体更大的样本
我有一个从 csv 文件创建的 dask 数据框,len(daskdf) 返回 18000,但是当我 ddSample = daskdf.sample(2000) 时,我收到错误 ValueError:当“
从 Dask 连接到 MinIO 上托管的 Delta Lake
我正在尝试连接到存储在 MinIO 而不是 S3 上的 DeltaLake 表。我可以直接使用 deltalake Python 包执行此操作,如下所示: 存储选项= { “AWS_ENDPOINT_UR...
将 SQL Server 表数据提取到 parquet 文件
我正在尝试使用 sqlalchemy、pandas 和 fastparquet 模块将 SQL Server 表数据之一提取为 parquet 文件格式,但最终出现异常。感谢对此的一些帮助,我正在尝试......