预测边界框

Question

我有一个图像数据集，其中包含 10 个不同的对象类及其边界框。我想训练一个模型来预测物体最可能的位置。

输入：画布尺寸（宽x高）例如：1024x1024 不同对象的数量（可能还有它们的大小），例如：1 个标题 250x40、1 个文本 100x100、1 个文本 150x50、10 个符号 50x50、2 个插图 200x200

输出：我想预测每个输入对象的 X 和 Y 位置（或者如果我们决定简化输入，则可能是尺寸），并注意有时它们可以彼此重叠，有时则不能。它们的输入也彼此相关，例如大多数时候符号被分组并彼此靠近放置

我可以使用 YOLO（或任何其他模型）来预测边界框吗？对我来说最好的起点是什么？你能给我一个解决方案的大图吗？

Answer 1

我可以使用 YOLO（或任何其他模型）来预测边界框吗？

当然，是的。

对我来说最好的起点是什么？

您能给我解决方案的大图吗？

您可以使用 Darknet/YOLO 查找小至约 10x10 像素的对象。如果你推动它，你可以做得稍微小一些，例如我在 YouTube 上有一些视频，其中我展示了它检测小至 7x7 像素的足球，但结果并不一致。最好的目标是 ~12x12 像素或更大。

希望您发布了一张图片，以便我们可以看到您想要做什么。从你所说的“标题”、“文本”和“符号”来看，我猜你正在处理带有文本的图像。 Darknet/YOLO 确实可以处理文本。我有几个示例视频：

阅读 Darknet/YOLO 常见问题解答的其余部分，了解您可以使用 Darknet/YOLO 做什么，或浏览我的 YouTube 频道的其余部分。