我有一个图像数据集,其中包含 10 个不同的对象类及其边界框。我想训练一个模型来预测物体最可能的位置。
输入: 画布尺寸(宽x高)例如:1024x1024 不同对象的数量(可能还有它们的大小),例如:1 个标题 250x40、1 个文本 100x100、1 个文本 150x50、10 个符号 50x50、2 个插图 200x200
输出: 我想预测每个输入对象的 X 和 Y 位置(或者如果我们决定简化输入,则可能是尺寸),并注意有时它们可以彼此重叠,有时则不能。它们的输入也彼此相关,例如大多数时候符号被分组并彼此靠近放置
我可以使用 YOLO(或任何其他模型)来预测边界框吗?对我来说最好的起点是什么?你能给我一个解决方案的大图吗?
我可以使用 YOLO(或任何其他模型)来预测边界框吗?
当然,是的。
对我来说最好的起点是什么?
以 Darknet/YOLO 为例:https://www.ccoderun.ca/programming/yolo_faq/#how_to_get_started
您能给我解决方案的大图吗?
您可以使用 Darknet/YOLO 查找小至约 10x10 像素的对象。 如果你推动它,你可以做得稍微小一些,例如我在 YouTube 上有一些视频,其中我展示了它检测小至 7x7 像素的足球,但结果并不一致。 最好的目标是 ~12x12 像素或更大。
希望您发布了一张图片,以便我们可以看到您想要做什么。 从你所说的“标题”、“文本”和“符号”来看,我猜你正在处理带有文本的图像。 Darknet/YOLO 确实可以处理文本。 我有几个示例视频:
阅读 Darknet/YOLO 常见问题解答的其余部分,了解您可以使用 Darknet/YOLO 做什么,或浏览我的 YouTube 频道的其余部分。