Dask是一个灵活的并行计算库,用于分析计算。它支持针对计算和大数据集合优化的动态任务调度。
我想用python读取大的xlsb文件。但是,我根本找不到任何解决方案。我尝试了Dask,但它没有读取它或excel文件的功能。而且,我使用了“delayed&q...”这个功能
Dask Dataframes 不能容忍其中的 NA 值吗?出现 ValueError,无法转换非有限值
我仍在学习 Dask 来使用数据库: 我有一个 Dask 数据帧,可以从本地 sql DB 成功复制,如下所示: ddf_authorized = dd.read_sql_table("
为什么polars被称为最快的dataframe库,dask搭配cudf不是更强大吗?
大多数基准测试都将 dask 和 cuDF 隔离开来,但我可以一起使用它们。带有 cuDF 的 Dask 不是比 Polars 更快吗?! 此外,Polars 仅在数据适合内存时才运行,但这不是......
如何使用dask.map_blocks和scipy的缩放功能重新缩放dask数组并将结果保存为zarr或hdf5?
问题: 我有一个代表张量的大型 Dask 数组,我想使用 SciPy 包中的缩放函数重新缩放它。重新缩放后,我想将生成的 Dask 数组保存到磁盘
如何在Dask DataFrame中读取和存储向量(List[float])?
我试图在 Dask DataFrame 中拥有来自向量 np.array 的“向量”列。 使用 Pandas DataFrame 代码将如下所示: 将 pandas 导入为 pd 将 numpy 导入为 np 矢量...
将 dask 数据帧写入 S3 时出现以下错误。不明白为什么。有谁知道如何修复。 dd.from_pandas(pred, npartitions=npart).to_parquet(out_path) 错误是 错误..错误
在共享索引上合并两个 DataFrame 时出现 Dask ValueError
我在尝试在共享索引上合并两个 Dask DataFrame 时遇到了 ValueError 。如果我不初始化集群和客户端,这将起作用。 在 Dask 2023.6.0 中重现的步骤: 进口...
如何将 groupby.aggregrate 中的列值重新分配回 dask 中的原始数据帧?
我有一个像这样的数据集,其中每一行都是玩家数据: >>> df.head() 游戏大小 比赛编号 党的大小 球员助攻 玩家击杀数 参赛者姓名 团队 ID 团队安置 0 37
我正在尝试使用以下代码将 dask 数据帧转换为 pandas 数据帧: 将 dask.dataframe 导入为 dd uri =“mysql+pymysql://myUser:myPassword@myHost:myPort/myDatabase” 数据...
snowflake 卸载到 S3,因为 parquet 没有列名,也没有正确的数据类型
以下命令在 S3 中生成 parquet 文件: 使用数据库沙箱; 使用架构沙箱; 创建或替换文件格式 my_parquet_format 类型 = 镶木地板; 复制到@bla/x_ 从 ( 选择 ...
Pandas / Dask - 对大型 CSV 进行分组和聚合会消耗内存和/或需要相当长的时间
我正在尝试使用一个小型 POC 来尝试分组和聚合,以减少 pandas 和 Dask 中大型 CSV 的数据,并且我观察到内存使用率很高和/或比我预期的处理时间慢......
在 pandas 中,我可以通过以下方式创建带有 pyarrow dtype 的系列: >>> 将 pandas 导入为 pd >>> s = pd.Series([1,2,3]).astype("int64[pyarrow]") >>> s.dtype
根据这个答案,我一直在尝试使用dask从压缩目录中读取多个CSV。但是,我收到一条很长的错误消息,我无法理解。我认为重要的一行我...
我有一个由多个 2d DataFrame 组成的 dask 数据框(每个分区都是一个 2d DataFrame)。我想要最有效的方法来找到生成单个 2d DataFra 的所有分区的平均值...
我需要在dask-distributed中进行简单的fifo调度
我有多个客户端作为服务器、一个调度程序和一个具有 3 个线程的工作线程。 我的客户端是异步的,当我收到请求时,他们使用分布式客户端。 调用看起来像这样:
我正在使用 dask.distrinulated,并且我有两个 dask DataFrame A 和 B。两者都有相同数量的分区,每个分区都是一个 2D DataFrame,包含相同的列和行,并且具有 f...
如何在使用dask打开的xarray数据集中使用一维函数metpy.parcel_profile
我无法在4D xarray数据集(用dask分段)上计算parcel_profile(1D函数)。 你好, 我真的需要帮助,我正在研究有关压力水平的 ERA5 每小时数据。我已经提取了亲戚
我有一个非常大的距离矩阵,我需要迭代每个值并在条件为真时更新距离。 这是我的 Pandas/Numpy 代码块: dist_mat = pd.read_csv() 日期...
运行包含map_blocks和reduce的计算时出现类型错误
我很难诊断错误的原因。我的代码涉及对一些数组运行卷积(使用map_blocks),如果它们属于同一组变量,否则只是rec...
在 pandas 中,我可以在 np.where() 使用的不同列上使用多个条件标记新列,例如: 将 pandas 导入为 pd df = pd.DataFrame({'名称':['A','B','C'], 是...