LLM2D

摘要

arXiv:2502.05147v3 通告类型: 替换交叉摘要：本文提出了LP-DETR（逐层递进DETR），这是一种通过多尺度关系建模来增强基于DETR的目标检测的新方法。我们的方法通过关系感知的自注意力机制引入了对象查询之间的可学习空间关系，该机制在解码器层之间自适应地学习平衡不同尺度的关系（局部、中等和全局）。这种递进设计使得模型能够在检测管道中有效地捕捉空间依赖性的演变。在COCO 2017数据集上的广泛实验表明，与标准的自注意力模块相比，我们的方法在收敛速度和检测准确性方面都有所提升。所提出的方法实现了可竞争的结果，使用ResNet-50主干时，在12个epochs下达到52.3%的AP，在24个epochs下达到52.5%的AP，并进一步使用Swin-L主干时提升到58.0%的AP。此外，我们的分析揭示了一个有趣的模式：模型自然学会在早期解码器层优先关注局部空间关系，而在更深的层逐渐转向更广泛的上下文，为未来的目标检测研究提供了有价值的见解。