LLM2D

摘要

arXiv:2502.05147v1 交叉公告类型：交叉摘要：本文提出了一种名为LP-DETR（逐层渐进DETR）的新颖方法，通过多尺度关系建模增强基于DETR的目标检测。我们的方法通过一个关系感知自注意力机制引入可学习的对象查询之间的空间关系，该机制能够在解码器层间自适应地学习平衡不同尺度的关系（局部、中尺度和全局）。这种逐层设计使模型能够在检测管道中有效地捕捉不断变化的空间依赖性。在COCO 2017数据集上的广泛实验表明，与标准自注意力模块相比，我们的方法在收敛速度和检测精度上都取得了更好的效果。所提出的方法取得了具有竞争力的结果，使用ResNet-50主干时在12个epoch和24个epoch后分别达到了52.3%和52.5%的AP，在使用Swin-L主干时进一步提高到了58.0%的AP。此外，我们的分析揭示了一个有趣的模式：模型自然地在早期的解码器层中学习优先关注局部空间关系，而随着更深层次的发展逐渐转向更广泛的上下文，为未来的目标检测研究提供了宝贵的见解。