LLM2D

摘要

arXiv:2412.04234v3 通知类型: 交叉替换摘要: 我们引入了DEIM，这是一种创新且高效的训练框架，旨在通过基于Transformer的架构（DETR）加速实时物体检测的收敛速度。为了缓解DETR模型中固有的一对一（O2O）匹配稀疏监督问题，DEIM采用了一种密集型一对一匹配策略。这一方法通过引入额外的目标，结合标准数据增强技术，增加了每张图像的正样本数量。虽然密集型一对一匹配有助于加速收敛，但也引入了大量低质量的匹配，这可能会影响性能。为此，我们提出了匹配意识损失（MAL），这是一种新颖的损失函数，可以在各种质量级别上优化匹配，增强密集型一对一匹配的有效性。在COCO数据集上的大量实验验证了DEIM的有效性。当与RT-DETR和D-FINE集成时，它能够始终如一地提高性能同时将训练时间减少50%。值得注意的是，与RT-DETRv2结合时，DEIM在一个NVIDIA 4090 GPU的训练日中实现了53.2%的AP。此外，DEIM训练的实时模型在NVIDIA T4 GPU上以124 FPS和78 FPS分别达到54.7%和56.5%的AP，无需额外数据。我们认为DEIM为实时物体检测的进步设定了新的基准。我们的代码和预训练模型可在 https://github.com/ShihuaHuang95/DEIM 获取。