加载大量图像数据的正确方法

问题描述 投票:0回答:1

对于我正在构建的深度学习应用程序,我有一个大约 50k 灰度图像的数据集,范围从大约 3002k 到 30010k 像素。将所有这些数据加载到内存中是不可能的,因此我正在寻找一种正确的方法来处理随机批量数据的读取。一个额外的复杂性是,在构建深度学习模型之前,我需要知道每个图像的宽度,以定义数据中的不同大小桶(例如:[2k-4k、4k-6k、6k-8k、8k -10k].

目前,我正在使用较小的数据集,只需从 png 文件加载每个图像,按大小对它们进行存储并开始学习。当我想扩大规模时,这就不再可能了。

为了训练模型,每批数据应该(理想情况下)完全随机地来自随机桶。一种简单的方法是预先保存图像的大小,然后在需要时加载每个随机批次。然而,这会导致大量额外的数据加载,并且内存管理效率不高。

如何有效地处理这个问题?

python deep-learning
1个回答
0
投票

为什么不添加预处理步骤,您可以(a)将图像物理移动到与存储桶关联的文件夹和/或重命名它们,或者(b)首先扫描所有图像(仅标题)以构建内存表图像文件名及其大小/存储桶,然后随机采样步骤的实现将非常简单。

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.