dask 相关问题

Dask是一个灵活的并行计算库，用于分析计算。它支持针对计算和大数据集合优化的动态任务调度。

我应该如何获得dask数据框的形状？

执行 .shape 给出以下错误。 AttributeError：“DataFrame”对象没有属性“shape” 我应该如何获得形状？

python dask

回答 6 投票 0

不带groupby的dask数据帧聚合（ddf.agg(['min','max'])？

Pandas 定义了 dataframe.agg，但 DASK 只定义了 dask_dataframe.groupby.agg。有没有办法在 dask 中的列上进行多次聚合而无需 groupby ？我知道describe()有统计列...

python pandas dask dask-dataframe

回答 1 投票 0

重新采样分块 xarray 会创建许多不需要的时间块

我正在使用 xarray 读取大型 netCDF 数据集，该数据集每 6 小时采样一次，并希望使用当天的平均值将其下采样到每日。我已经在空间上对数据集进行了分块。当我downsam之后...

python dask python-xarray downsampling

回答 1 投票 0

如何将dataframe分区一一保存到同一个本地数据库？

我有大约 30GB 未压缩的空间数据，包含几何图形、id 和一些字符串。它们与这些列一起保存为 Dask DataFrame。 id|几何|...| 12|点(..)|...| 因为它们太大了，...

dask

回答 1 投票 0

Pandas 分类列来分解表格

我正在 SQL 服务器上处理一个巨大的非规范化表。以此作为数据示例：将 pandas 导入为 pd 将 numpy 导入为 np 数据 = pd.DataFrame({ '状态' : ['待处理', '待处理', '待处理', '

python pandas dask

回答 1 投票 0

如何在dask数据帧的新列中添加每个值的唯一ID

我有以下 dask 数据框列 1 列 2 一个 1 a2 乙3 丙4 c 5 我需要添加一个新列，其中包含列中值的唯一连续编号...

python dask

回答 1 投票 0

如何在 dask cudf 的列中用逗号替换点？

我想替换字符串列的“.”在 dask_cudf 数据框中使用“，”。例子 tdf = cudf.DataFrame("A":["x.y", "a.b"]) 温度 = dask_cudf。

dataframe dask dask-dataframe cudf

回答 1 投票 0

dask cudf 无法访问map_partitions

我尝试创建 dask_cudf 数据框但出现错误。导入dask_cudf 导入CUDF # 带有日期时间字符串列的 pandas DataFrame 示例 pdf = pd.DataFrame({'datetime_str': ['2024-03-19 12:...

python pandas dask dask-dataframe cudf

回答 1 投票 0

如何在执行 Dask 任务之间保留一些 Python 对象状态？

我有一个 Dask 工作集群，我想用它们来使用复杂模型并行化预测操作。模型文件很大并且需要时间来加载，所以我使用 client.run 来获取所有

python dask dask-distributed

回答 1 投票 0

如何将日期时间字符串转换为 dask cudf 中的时间戳，然后按此列对数据帧进行排序

我想将日期时间字符串转换为 dask cudf 中的时间戳，然后按此列对数据帧进行排序。例子：将 dask_cudf 导入为 ddf 将 pandas 导入为 pd # 示例数据（替换为您的

pandas dataframe dask dask-distributed cudf

回答 1 投票 0

npartitions 在 Dask 数据框中的作用是什么？

我在很多函数中看到参数npartitions，但我不明白它有什么用/有什么用。 http://dask.pydata.org/en/latest/dataframe-api.html#dask.dataframe.read_csv 头（...）埃莱梅...

python dataframe dask

回答 2 投票 0

Dask 如何管理文件描述符

Dask 如何管理文件描述符？例如，从 hdf5 文件创建 dask.array 时。当数组大到足以进行分块时。创建的任务是否继承创建的文件描述符...

file-io io dask dask-distributed

回答 1 投票 0

如何使用Dask代替pandas？

我尝试使用dask来代替pandas，但我不知道该怎么做，有人可以帮忙吗？这是代码：新文件名=“测试.xlsx” 列 = ['A', 'B', 'C', 'D'] 数据 = pd.read_...

python pandas dask

回答 1 投票 0

读取文件csv并与多个worker、dask.distributed、dask.dataframe进行聚合

我有服务器 IP：192.168.33.10 启动 schudeler dask 调度程序 --host 0.0.0.0 这是该服务器中的主机，我有文件“/var/shared/job_skills.csv”，工作人员是 192.168.33.11，...

python dataframe dask dask-distributed dask-dataframe

回答 1 投票 0

配置 Dask 分布式序列化以启用压缩？

运行分布在数十个节点的 Dask，我发现如果在发送到 Dask 之前使用 zlib 压缩数据，计算往返时间从大约 10 秒减少到 5 秒。通过压缩，数据...

serialization dask distributed

回答 1 投票 0

在高故障率集群上使用Dask进行分布式链式计算？

我正在使用 Dask Bag 在特殊集群上运行一些简单的映射缩减计算：导入 dask.bag 作为包 summed_image = bag.from_sequence(my_ids).map(gen_image_from_ids).reduction(sum, sum).comp...

python mapreduce dask dask-distributed dask-dataframe

回答 2 投票 0

将字符串转换为字典，然后访问键：值？？？如何在 Python 中访问 <class 'dict'> 中的数据？

我在访问字典中的数据时遇到问题。系统：Macbook 2012 Python：Python 3.5.1 :: Continuum Analytics, Inc. 我正在使用从 csv 创建的 dask.dataframe。编辑曲...

python pandas dictionary data-manipulation dask

回答 5 投票 0

以一列方式清除约 100GB csv 重复项的最快速、最有效的方法

我有大约 100GB 的 csv 文件，其中包含以下列：性别；姓名；出生日期；哈希值该文件是在对另一个 .csv 文件进行一些处理后创建的。而且它可以包含元组，这就是为什么有这个哈希列....

python postgresql csv dask python-polars

回答 1 投票 0

dask 调度程序的连接问题

我已经使用 GKE 设置了一个 kubernetes 集群并安装了 dask-kubernetes-operator。当我尝试像这样启动集群时集群：KubeCluster = KubeCluster(custom_cluster_spec="集群....

kubernetes google-kubernetes-engine dask dask-distributed dask-kubernetes

回答 1 投票 0

为什么dask显示的大小比数据（numpy数组）的实际大小小？

Dask 显示的大小比 numpy 数组的实际大小稍小。下面是一个大小正好为 32 Mb 的 numpy 数组的示例：将 dask 导入为 da 导入 dask.array 将 numpy 导入为 np 形状 = (1...

python numpy dask dask-distributed

回答 1 投票 0

dask 相关问题

最新问题