LLM2D

摘要

arXiv:2502.07194v1 交叉公告类型：交叉摘要：密集物体检测在自动驾驶、视频 surveillance 等领域中得到了广泛应用。本文专注于密集物体检测这一具有挑战性的任务。目前，基于贪婪算法的检测方法，如非极大值抑制（NMS），在密集场景中经常会生成许多重复预测或漏检，这是基于 NMS 的算法面临的常见问题。通过端到端的 DETR（DEtection TRansformer），作为一种可以将 NMS 等后处理去重能力整合到网络中的检测器，我们发现基于查询的检测器中同质查询导致了网络去重能力和编码器学习效率的下降，从而产生了重复预测和漏检问题。为了解决这一问题，我们提出了可学习的差异化编码以去除了查询中的同质性，并且通过差异化编码信息使查询之间能够相互交流，替代了之前查询之间的自我注意机制。此外，我们使用了同时考虑位置和置信度预测的联合损失在编码器输出上进行计算，为查询提供了一个更高质量的初始化。在没有复杂的解码器堆叠且保证准确性的前提下，我们提出的一体化检测框架更为简洁，并且相比可变形 DETR 参数减少了约 8%。我们的方法在具有挑战性的 CrowdHuman 数据集上取得了优异的结果，平均精度（AP）为 93.6%，MR-2 为 39.2%，JI 为 84.3%。与之前的 SOTA 方法（如 Iter-E2EDet（渐进式端到端目标检测）和 MIP（一个提案，多次预测））相比，我们的方法在各种不同密度的场景中表现更为稳健。