Dask是一个灵活的并行计算库,用于分析计算。它支持针对计算和大数据集合优化的动态任务调度。
我正在使用 Dask 设置集群。现在我正在本地主机上设置调度程序和工作人员。 集群 = SSHCluster(["localhost", "localhost"],
我有一个 .tif 文件的文件夹,我想将它们合并到数据立方体中。我所说的 datacube 是指 netcdf 文件或 zarr 文件。目标是如果我在 Python 中打开这个数据立方体,我可以访问 3D 数组
我正在开发一个使用历史数据和传入数据进行分析的项目。我想了解如何管理更新 dask 上的传入数据,而不必分派所有
如何惰性地 GroupShuffleSplit parquet 数据框?
我有一个镶木地板数据集,如下所示(我使用的是极坐标,但任何数据框库都可以): df = pl.DataFrame( { “匹配 ID”:[ 1, 1, 1, 2, 2, ...
在处理两个不同大小的输入数组时,如何有效利用 Dask `map_overlap` 函数?
我正在使用两个变量,可以将其视为矩阵 - 维度为 (100, 100) 的“a”和维度为 (200, 200) 的“b”。我的目标是执行涉及“a”和“...”的计算
`ValueError:无法使用 Dask DataFrame 从重复轴重新索引
我一直在尝试调整我的代码以利用Dask来利用多台机器进行处理。虽然初始数据加载并不耗时,但后续处理大约需要 12 个小时......
如果我注释掉这一行,我发现 dask 的奇怪行为仍然存在 # client = Client(memory_limit='20GB',n_workers=1) # 连接到分布式集群并覆盖默认值 并执行
我有一个返回两个元素的元组的函数。使用 pool starmap 调用该函数来生成元组列表,并将其解压缩为两个列表。 def 函数(): #...一些操作 重新...
我想将 Client.map 方法应用于使用多个参数的函数,就像多处理的 Pool.starmap 方法一样。这是一个例子 从 contextlib 导入 contextmanager 从...
鉴于: 小样本熊猫数据框: 将 pandas 导入为 pd 将 numpy 导入为 np 将 dask.dataframe 导入为 dd df = pd.DataFrame({"usr": ["ip1", "ip7", "ip12", &q...
我想用python读取大的xlsb文件。但是,我根本找不到任何解决方案。我尝试了Dask,但它没有读取它或excel文件的功能。而且,我使用了“delayed&q...”这个功能
Dask Dataframes 不能容忍其中的 NA 值吗?出现 ValueError,无法转换非有限值
我仍在学习 Dask 来使用数据库: 我有一个 Dask 数据帧,可以从本地 sql DB 成功复制,如下所示: ddf_authorized = dd.read_sql_table("
为什么polars被称为最快的dataframe库,dask搭配cudf不是更强大吗?
大多数基准测试都将 dask 和 cuDF 隔离开来,但我可以一起使用它们。带有 cuDF 的 Dask 不是比 Polars 更快吗?! 此外,Polars 仅在数据适合内存时才运行,但这不是......
如何使用dask.map_blocks和scipy的缩放功能重新缩放dask数组并将结果保存为zarr或hdf5?
问题: 我有一个代表张量的大型 Dask 数组,我想使用 SciPy 包中的缩放函数重新缩放它。重新缩放后,我想将生成的 Dask 数组保存到磁盘
如何在Dask DataFrame中读取和存储向量(List[float])?
我试图在 Dask DataFrame 中拥有来自向量 np.array 的“向量”列。 使用 Pandas DataFrame 代码将如下所示: 将 pandas 导入为 pd 将 numpy 导入为 np 矢量...
将 dask 数据帧写入 S3 时出现以下错误。不明白为什么。有谁知道如何修复。 dd.from_pandas(pred, npartitions=npart).to_parquet(out_path) 错误是 错误..错误
在共享索引上合并两个 DataFrame 时出现 Dask ValueError
我在尝试在共享索引上合并两个 Dask DataFrame 时遇到了 ValueError 。如果我不初始化集群和客户端,这将起作用。 在 Dask 2023.6.0 中重现的步骤: 进口...
如何将 groupby.aggregrate 中的列值重新分配回 dask 中的原始数据帧?
我有一个像这样的数据集,其中每一行都是玩家数据: >>> df.head() 游戏大小 比赛编号 党的大小 球员助攻 玩家击杀数 参赛者姓名 团队 ID 团队安置 0 37
我正在尝试使用以下代码将 dask 数据帧转换为 pandas 数据帧: 将 dask.dataframe 导入为 dd uri =“mysql+pymysql://myUser:myPassword@myHost:myPort/myDatabase” 数据...
snowflake 卸载到 S3,因为 parquet 没有列名,也没有正确的数据类型
以下命令在 S3 中生成 parquet 文件: 使用数据库沙箱; 使用架构沙箱; 创建或替换文件格式 my_parquet_format 类型 = 镶木地板; 复制到@bla/x_ 从 ( 选择 ...