很难理解对象查询在 DETR 中的作用以及如何训练它?
DETR 中的对象查询是通过反向传播训练的向量,就像在其他模型中训练学习的位置嵌入一样,例如分段变换器 (SETR) 或变换器的双向编码器表示 (BERT)。在假设每个图像最多 100 个对象的 DETR 基础模型中,这些是随机初始化并使用 COCO 数据集的一部分进行训练的 100 256 维向量。
DETR 使用基于转换器的模型,其中包括解码器堆栈。解码器堆栈需要输入向量,就像基于解码器的 NLP 模型(如 Llama 或 GPT)需要提示一样。对象查询集是 DETR 情况下的提示。由于向量的数量以及解码器堆栈输出的对象的数量与输入向量的数量相同,因此我们需要与我们期望的最大对象数量一样多的输入向量(包括“无对象”的对象) “类)。
阅读原始论文了解更多信息。