dask 相关问题

Dask是一个灵活的并行计算库,用于分析计算。它支持针对计算和大数据集合优化的动态任务调度。

dd.read_sql_table TypeError 问题:附加参数应命名为<dialectname>_<argument>,得到“自动加载”

我正在尝试使用 python pymssql 从 SQL 表中获取 760 万条记录。目前获取表记录需要一个多小时。我曾尝试过各种方法来减少这个持续时间......

回答 0 投票 0

Dask 遇到 read_sql_table 问题

我想对一些 SQL 大表使用 Dask,但是当我运行 dd.read_sql_table('ORDENES', str(engine.url), index_col='ID', npartitions=1) 我收到这个 TypeError: 附加参数应该是 na...

回答 2 投票 0

pyspark.pandas 是重写 pandas 数据框架的最佳解决方案(从劳动力的角度来看)吗?

我们遇到的问题是我们在 pandas 中有很多历史 python 代码,这意味着所有内容都在内存中处理(基于 pandas dataframe)。 我们正在使用更多数据和内存中的数据

回答 0 投票 0

使用 dask 连接到 aws redshift 时出错

我正在使用 dask 连接到 AWS Redshift 并查询数据库。尝试将连接字符串传递给 read_sql_query 方法时遇到错误。 # 连接到 aws redshift 集群 进口

回答 1 投票 0

如何在 dask DataFrame.iterrows 上显示进度条

我尝试在 dask 上使用 iterrows 时显示进度条。但是,它只显示(我假设的)第一个循环进度条。 将 dask.array 导入为 da 将 dask.dataframe 导入为 dd 来自dask.

回答 2 投票 0

多个索引的任务和最佳实践

看起来我遗漏了一些关于如何在 Dask 中使用 DataFrame 索引的非常基本的东西。 我有一个 DataFrame,其中大部分排序和过滤都是在列日期完成的,所以

回答 1 投票 0

Dask 忽略有关 parquet 数据集划分的知识

我在目录“dataset_path”中有一个镶木地板数据集,其中包含一个索引列日期。 元数据由 dask 创建,相关模式数据如下所示: 日期:时间...

回答 1 投票 0

Dask 教程因 distributed.nanny 而失败 - 警告 - 重新启动 worker

对 Dask 提供的可能性感兴趣,我从 dask 教程开始,并按照教程的说明准备我的笔记本电脑:克隆 repo 并制作一个新的 conda ...

回答 2 投票 0

高效加载和分组空间 CSV 数据

我有 CSV 文件,其中包含 LAT、LON、MMSI、VesselType 等列的数据。我想读入它并按 MMSI 对其进行分组,并将所有 LAT 和 LON 放入某种地理线数据中

回答 0 投票 0

Dask DataFrame:使用 map_partitions 从旧列创建 2 个新列并分配和自定义函数?

我有一个 3 mio 的 csv。行。 包含测量数据的列不是纯粹的浮点数。 它包含“<" and ">”。我想创建两个新列,一个包含 &qu...

回答 0 投票 0

如果延迟对象使用太多内存,是否可以让 Dask 返回默认值?

如果延迟对象使用太多内存,是否可以让 Dask 返回默认值? 我想在大型数据集上并行评估机器学习管道列表。我正在做这个......

回答 0 投票 0

查看 Dask 数据框是如何在 worker 之间分布的

也许是因为我比较新,但我似乎无法找到这个问题的答案。 在调用 DataFrame.persist() 之后,是否有一种简单的方法可以查看每个

回答 0 投票 0

具有综合测试的任务分配

我正在尝试使用 Dask 在多个系统上分配计算。 但是,有一些我无法理解的概念,因为我无法通过一个简单的测试重现逻辑行为,我...

回答 1 投票 0

来自 io.bytesIO 的 Dask read_csv

我正在尝试使用 dask 读取 io.bytesIO 中的 csv 存储。那是可能的吗? blob_service = BlobServiceClient.from_connection_string(self.credentials['connection_string']) blob_client =

回答 1 投票 0

您将如何使用 Dask 在 Dask.Geodataframe 中递归查找相邻的多边形?

我是 Dask 的新手。 我一直试图让它完成以下任务: 我有两个地理数据框和一组: # Main chunk 和 combined chunk 是镶嵌单元格的多边形列表 main_chunk = ...

回答 1 投票 0

在 Dask DataFrame 中为每个分区创建具有特定值的新列

我有两个分区数相同的 Dask DataFrame。 第一个每个分区的列和行很少(因此 Pandas DataFrame),但是两个之间的行数可能不同

回答 0 投票 0

如果 osmnx 预先下载数据,Dask 会抛出 DNS 类型错误

我在使用OSMNX下载数据后尝试运行dask; Dask 返回一个类型错误,如下所示;我尝试在运行 OSMNX 函数之前实现 Client(),它运行良好;东西...

回答 1 投票 0

我写了一个 lambda 函数用于 Pandas 的聚合函数。我怎样才能在 Dask 的聚合函数中实现这个 lambda 函数?

我编写了一个自定义 lambda 函数,需要在数据帧中的 groupby 操作之后应用。 lambda 函数将特定组中的所有**唯一**字符串与

回答 1 投票 0

运行时警告情节

当我尝试绘制一些数据时:ndvi.mean(['x', 'y']).plot.line('b-^', figsize=(11,4)) 我收到了很多警告,例如:运行时警告 视窗 蟒蛇 3.9.15 dask==2022.12.0 Matplotlib==3.7.1 Numpy==...

回答 0 投票 0

Dask Distributed:将 Dask 分布式 worker 限制为 1 个 CPU

我的系统有 4 个 CPU,16 GB 内存。我的目标是部署 dask 分布式工作人员,每个工作人员仅使用 1 个 CPU 来运行分配给他们的代码。 我正在使用 ...

回答 3 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.