LLM2D
YOLOv12:以注意力为中心的实时目标检测器
YOLOv12: Attention-Centric Real-Time Object Detectors
作者: Yunjie Tian, Qixiang Ye, David Doermann
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.12524v1

摘要

arXiv:2502.12524v1 类型: cross 摘要: 长期以来,增强YOLO框架的网络架构至关重要,但主要集中在基于CNN的改进上,尽管已经证明注意力机制在建模能力方面具有优越性。这是因为基于注意力的模型无法与基于CNN的模型的速度相媲美。本文提出了一种以注意力为中心的YOLO框架,即YOLOv12,该框架能够在保持与之前的基于CNN模型相同速度的同时,充分利用注意力机制的性能优势。YOLOv12在精度上超越了所有流行的实时目标检测器,同时具有竞争力的速度。例如,YOLOv12-N在T4 GPU上的推理延迟为1.64 ms时,实现了40.6%的mAP,分别以相似的速度超越了先进的YOLOv10-N / YOLOv11-N,提高了2.1%和1.2%的mAP。这一优势也扩展到了其他模型规模。YOLOv12还超越了改进DETR的端到端实时检测器,如RT-DETR / RT-DETRv2:YOLOv12-S在运行速度快42%的情况下,只使用了36%的计算量和45%的参数,就击败了RT-DETR-R18 / RT-DETRv2-R18。更多比较见图1。