加载大量图像数据的正确方法

Question

对于我正在构建的深度学习应用程序，我有一个大约 50k 灰度图像的数据集，范围从大约 3002k 到 30010k 像素。将所有这些数据加载到内存中是不可能的，因此我正在寻找一种正确的方法来处理随机批量数据的读取。一个额外的复杂性是，在构建深度学习模型之前，我需要知道每个图像的宽度，以定义数据中的不同大小桶（例如：[2k-4k、4k-6k、6k-8k、8k -10k].

目前，我正在使用较小的数据集，只需从 png 文件加载每个图像，按大小对它们进行存储并开始学习。当我想扩大规模时，这就不再可能了。

为了训练模型，每批数据应该（理想情况下）完全随机地来自随机桶。一种简单的方法是预先保存图像的大小，然后在需要时加载每个随机批次。然而，这会导致大量额外的数据加载，并且内存管理效率不高。

如何有效地处理这个问题？

Answer 1

为什么不添加预处理步骤，您可以（a）将图像物理移动到与存储桶关联的文件夹和/或重命名它们，或者（b）首先扫描所有图像（仅标题）以构建内存表图像文件名及其大小/存储桶，然后随机采样步骤的实现将非常简单。

加载大量图像数据的正确方法

问题描述投票：0回答：1

1个回答

最新问题

加载大量图像数据的正确方法

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1