LLM2D
DEIM: DETRwith改进匹配以实现快速收敛
DEIM: DETR with Improved Matching for Fast Convergence
作者: Shihua Huang, Zhichao Lu, Xiaodong Cun, Yongjun Yu, Xiao Zhou, Xi Shen
发布日期: 3/27/2025
arXiv ID: oai:arXiv.org:2412.04234v3

摘要

arXiv:2412.04234v3 通知类型: 交叉替换 摘要: 我们引入了DEIM,这是一种创新且高效的训练框架,旨在通过基于Transformer的架构(DETR)加速实时物体检测的收敛速度。为了缓解DETR模型中固有的一对一(O2O)匹配稀疏监督问题,DEIM采用了一种密集型一对一匹配策略。这一方法通过引入额外的目标,结合标准数据增强技术,增加了每张图像的正样本数量。虽然密集型一对一匹配有助于加速收敛,但也引入了大量低质量的匹配,这可能会影响性能。为此,我们提出了匹配意识损失(MAL),这是一种新颖的损失函数,可以在各种质量级别上优化匹配,增强密集型一对一匹配的有效性。在COCO数据集上的大量实验验证了DEIM的有效性。当与RT-DETR和D-FINE集成时,它能够始终如一地提高性能同时将训练时间减少50%。值得注意的是,与RT-DETRv2结合时,DEIM在一个NVIDIA 4090 GPU的训练日中实现了53.2%的AP。此外,DEIM训练的实时模型在NVIDIA T4 GPU上以124 FPS和78 FPS分别达到54.7%和56.5%的AP,无需额外数据。我们认为DEIM为实时物体检测的进步设定了新的基准。我们的代码和预训练模型可在 https://github.com/ShihuaHuang95/DEIM 获取。