Dask是一个灵活的并行计算库,用于分析计算。它支持针对计算和大数据集合优化的动态任务调度。
dd.read_sql_table TypeError 问题:附加参数应命名为<dialectname>_<argument>,得到“自动加载”
我正在尝试使用 python pymssql 从 SQL 表中获取 760 万条记录。目前获取表记录需要一个多小时。我曾尝试过各种方法来减少这个持续时间......
我想对一些 SQL 大表使用 Dask,但是当我运行 dd.read_sql_table('ORDENES', str(engine.url), index_col='ID', npartitions=1) 我收到这个 TypeError: 附加参数应该是 na...
pyspark.pandas 是重写 pandas 数据框架的最佳解决方案(从劳动力的角度来看)吗?
我们遇到的问题是我们在 pandas 中有很多历史 python 代码,这意味着所有内容都在内存中处理(基于 pandas dataframe)。 我们正在使用更多数据和内存中的数据
我正在使用 dask 连接到 AWS Redshift 并查询数据库。尝试将连接字符串传递给 read_sql_query 方法时遇到错误。 # 连接到 aws redshift 集群 进口
如何在 dask DataFrame.iterrows 上显示进度条
我尝试在 dask 上使用 iterrows 时显示进度条。但是,它只显示(我假设的)第一个循环进度条。 将 dask.array 导入为 da 将 dask.dataframe 导入为 dd 来自dask.
看起来我遗漏了一些关于如何在 Dask 中使用 DataFrame 索引的非常基本的东西。 我有一个 DataFrame,其中大部分排序和过滤都是在列日期完成的,所以
我在目录“dataset_path”中有一个镶木地板数据集,其中包含一个索引列日期。 元数据由 dask 创建,相关模式数据如下所示: 日期:时间...
Dask 教程因 distributed.nanny 而失败 - 警告 - 重新启动 worker
对 Dask 提供的可能性感兴趣,我从 dask 教程开始,并按照教程的说明准备我的笔记本电脑:克隆 repo 并制作一个新的 conda ...
我有 CSV 文件,其中包含 LAT、LON、MMSI、VesselType 等列的数据。我想读入它并按 MMSI 对其进行分组,并将所有 LAT 和 LON 放入某种地理线数据中
Dask DataFrame:使用 map_partitions 从旧列创建 2 个新列并分配和自定义函数?
我有一个 3 mio 的 csv。行。 包含测量数据的列不是纯粹的浮点数。 它包含“<" and ">”。我想创建两个新列,一个包含 &qu...
如果延迟对象使用太多内存,是否可以让 Dask 返回默认值?
如果延迟对象使用太多内存,是否可以让 Dask 返回默认值? 我想在大型数据集上并行评估机器学习管道列表。我正在做这个......
也许是因为我比较新,但我似乎无法找到这个问题的答案。 在调用 DataFrame.persist() 之后,是否有一种简单的方法可以查看每个
我正在尝试使用 dask 读取 io.bytesIO 中的 csv 存储。那是可能的吗? blob_service = BlobServiceClient.from_connection_string(self.credentials['connection_string']) blob_client =
您将如何使用 Dask 在 Dask.Geodataframe 中递归查找相邻的多边形?
我是 Dask 的新手。 我一直试图让它完成以下任务: 我有两个地理数据框和一组: # Main chunk 和 combined chunk 是镶嵌单元格的多边形列表 main_chunk = ...
在 Dask DataFrame 中为每个分区创建具有特定值的新列
我有两个分区数相同的 Dask DataFrame。 第一个每个分区的列和行很少(因此 Pandas DataFrame),但是两个之间的行数可能不同
如果 osmnx 预先下载数据,Dask 会抛出 DNS 类型错误
我在使用OSMNX下载数据后尝试运行dask; Dask 返回一个类型错误,如下所示;我尝试在运行 OSMNX 函数之前实现 Client(),它运行良好;东西...
我写了一个 lambda 函数用于 Pandas 的聚合函数。我怎样才能在 Dask 的聚合函数中实现这个 lambda 函数?
我编写了一个自定义 lambda 函数,需要在数据帧中的 groupby 操作之后应用。 lambda 函数将特定组中的所有**唯一**字符串与
当我尝试绘制一些数据时:ndvi.mean(['x', 'y']).plot.line('b-^', figsize=(11,4)) 我收到了很多警告,例如:运行时警告 视窗 蟒蛇 3.9.15 dask==2022.12.0 Matplotlib==3.7.1 Numpy==...
Dask Distributed:将 Dask 分布式 worker 限制为 1 个 CPU
我的系统有 4 个 CPU,16 GB 内存。我的目标是部署 dask 分布式工作人员,每个工作人员仅使用 1 个 CPU 来运行分配给他们的代码。 我正在使用 ...