预测边界框

问题描述 投票:0回答:1

我有一个图像数据集,其中包含 10 个不同的对象类及其边界框。我想训练一个模型来预测物体最可能的位置。

输入: 画布尺寸(宽x高)例如:1024x1024 不同对象的数量(可能还有它们的大小),例如:1 个标题 250x40、1 个文本 100x100、1 个文本 150x50、10 个符号 50x50、2 个插图 200x200

输出: 我想预测每个输入对象的 X 和 Y 位置(或者如果我们决定简化输入,则可能是尺寸),并注意有时它们可以彼此重叠,有时则不能。它们的输入也彼此相关,例如大多数时候符号被分组并彼此靠近放置

我可以使用 YOLO(或任何其他模型)来预测边界框吗?对我来说最好的起点是什么?你能给我一个解决方案的大图吗?

artificial-intelligence object-detection prediction yolo darknet
1个回答
0
投票

我可以使用 YOLO(或任何其他模型)来预测边界框吗?

当然,是的。

对我来说最好的起点是什么?

以 Darknet/YOLO 为例:https://www.ccoderun.ca/programming/yolo_faq/#how_to_get_started

您能给我解决方案的大图吗?

您可以使用 Darknet/YOLO 查找小至约 10x10 像素的对象。 如果你推动它,你可以做得稍微小一些,例如我在 YouTube 上有一些视频,其中我展示了它检测小至 7x7 像素的足球,但结果并不一致。 最好的目标是 ~12x12 像素或更大。

希望您发布了一张图片,以便我们可以看到您想要做什么。 从你所说的“标题”、“文本”和“符号”来看,我猜你正在处理带有文本的图像。 Darknet/YOLO 确实可以处理文本。 我有几个示例视频:

  1. 在图像中查找“文本”:https://www.youtube.com/watch?v=XxhbXccHEpA
  2. 在表单上查找文本“字段”:https://www.youtube.com/watch?v=8xfP8l5ym6A
  3. 使用 Darknet/YOLO 阅读文本:https://www.youtube.com/watch?v=_BsLM4e3_oo&t=372s

阅读 Darknet/YOLO 常见问题解答的其余部分,了解您可以使用 Darknet/YOLO 做什么,或浏览我的 YouTube 频道的其余部分。

最新问题
© www.soinside.com 2019 - 2024. All rights reserved.