dask 相关问题

Dask是一个灵活的并行计算库,用于分析计算。它支持针对计算和大数据集合优化的动态任务调度。

将多个大型 CSV 文件加载到镶木地板中,同时为文件名创建新列

我收集了 CSV 文件,最多 1000 个,每个未压缩的大小约为 1 GB。我想从它们创建一个镶木地板数据集。 在这样做时,我想记录每组行来自哪个文件......

回答 1 投票 0

在 Dask/DuckDB 中格式化字符串

我有一些镶木地板数据,如下所示: 名称、次数、结果 ABC,500,“123,456,789,...” ABC,499,“321,456,789...” 结果字符串中存在 Count 个数字。我会...

回答 1 投票 0

如何处理用于训练 XGboost 的大数据集?

我有一个包含 530 个类的数据集,并且它非常不平衡,因此由于我是处理如此大的数据集的新手,所以我对前 10 个大多数类进行了欠采样,然后将其与其他数据连接起来......

回答 1 投票 0

尝试修改分类数据时出现 dask 错误

我想转换 dask.DataFrame 的一个分类列。 这是我现在正在做的事情: # 玩具示例 df = pd.DataFrame({'文件': ['A.csv', 'B.csv', 'C.csv']}) df['文件'] = df.file.astype('猫...

回答 1 投票 0

使用 Dask 执行 python 代码时出现异常

我正在使用《Fast Python:大型数据集的高性能技术》(2023)一书学习 dask。我一直在尝试运行下面显示的示例(第 241 页),该示例使用税收文件...

回答 1 投票 0

使用 dask 高效扩展 scikit-learn 管道以处理大型数据集

我正在使用 scikit-learn 开发这个 ML 项目,并面临一个大数据集不适合内存的问题。我听说 Dask 可用于扩展大型数据集的管道......

回答 1 投票 0

Dask 令人尴尬地并行循环优化

我正在尝试加快 pandas.DataFrame 上的一些计算速度。每次迭代的大约一半时间仅用于创建数据帧的副本(它有约 150 万行和 10 列......

回答 1 投票 0

从 len 18000 的 Dask Dataframe 中采样 n= 2000 会产生错误 当“replace=False”时,无法获取比总体更大的样本

我有一个从 csv 文件创建的 dask 数据框,len(daskdf) 返回 18000,但是当我 ddSample = daskdf.sample(2000) 时,我收到错误 ValueError:当“

回答 5 投票 0

从 Dask 连接到 MinIO 上托管的 Delta Lake

我正在尝试连接到存储在 MinIO 而不是 S3 上的 DeltaLake 表。我可以直接使用 deltalake Python 包执行此操作,如下所示: 存储选项= { “AWS_ENDPOINT_UR...

回答 1 投票 0

将 SQL Server 表数据提取到 parquet 文件

我正在尝试使用 sqlalchemy、pandas 和 fastparquet 模块将 SQL Server 表数据之一提取为 parquet 文件格式,但最终出现异常。感谢对此的一些帮助,我正在尝试......

回答 2 投票 0

在 HTCondor 集群上运行模拟时如何处理 Dask 中的单个 Worker 故障?

我正在使用 Dask 在 HTCondor 集群上运行模拟。问题是,当其中一个模拟失败时,其余的工作人员就会被关闭。这是我启动模拟的代码...

回答 1 投票 0

Dask - 如何优化 dask 数据帧中每个分区第一行的计算?

我的总体目标是读取几个 csv 文件,进行一些计算,使用 to_parquet 函数中的partition_on 选项将它们保存为 parquet 数据库。 我之前无法重新索引和重新分区...

回答 1 投票 0

(懒惰)将值填充到 dask 数组中需要越来越多的时间

我有一些(~1000)个较小的数组和一个大数组。 小阵列的大小均相同,约为 4000x4000。 大数组的大小约为 1e5x1e5,是使用 dask.array.zeros 创建的,wi...

回答 1 投票 0

如何在 dask 中使用用户定义的 fsspec 文件系统?

我在 fsspec 库中创建了自己的文件系统,我正在尝试从该文件系统对象读取 dask 数据帧以打开数据帧文件。但是,当我尝试执行此操作时出现错误...

回答 1 投票 0

从 Dask/Xarray 的计算中排除整个块

我正在使用 xarray/dask 处理大量非矩形卫星图像数据集。我从图像的足迹中提前知道,xarray 的大部分是无数据的(因为图像

回答 1 投票 0

检测我是否在 dask Worker 中运行的最干净的方法是什么

给定一个 dask.distributed 集群(例如 LocalCluster),检测我是否在 Worker 实例中运行 python 代码的最可靠方法是什么? 这可能是不严格的代码

回答 1 投票 0

如何使用dask集群作为dask.compute的调度程序

我有一个类,它具有类似于以下上下文管理器的内容来创建 dask 客户端和集群: 类 some_class(): def __init__(self,engine_kwargs: dict = None): 自我。

回答 1 投票 0

如何在 Dask 中复制 numpy.random 的结果

如果我不能使用 Dask,如何使用 Dask 或 joblib Parallel 使 numpy 随机的结果可复制? get_random 函数更复杂,它操作 pandas.Dataframe 对象。 rng = n...

回答 1 投票 0

处理非常大的xarray数据集:加载切片消耗太多时间

我有一个非常大的netcdf数据集,由1985年4月到2024年4月的每日块数据组成。由于数组被分为每日块,我经常使用 ds = xr.open_mfdataset(*.nc...

回答 1 投票 0

如何在 Google Colab 介质中使用 Python/Pyspark 高效地从大数据中过滤和检索特定记录?

我正在努力解决数据工程问题: 数据集特征 公共数据集 期间 虚拟机总数 数据集大小 Azure公共数据集V2 连续30天 2,695,548 (~2.6M ) 235GB(156GB

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.