LLM2D

摘要

arXiv:2502.12524v1 类型: cross 摘要: 长期以来，增强YOLO框架的网络架构至关重要，但主要集中在基于CNN的改进上，尽管已经证明注意力机制在建模能力方面具有优越性。这是因为基于注意力的模型无法与基于CNN的模型的速度相媲美。本文提出了一种以注意力为中心的YOLO框架，即YOLOv12，该框架能够在保持与之前的基于CNN模型相同速度的同时，充分利用注意力机制的性能优势。YOLOv12在精度上超越了所有流行的实时目标检测器，同时具有竞争力的速度。例如，YOLOv12-N在T4 GPU上的推理延迟为1.64 ms时，实现了40.6%的mAP，分别以相似的速度超越了先进的YOLOv10-N / YOLOv11-N，提高了2.1%和1.2%的mAP。这一优势也扩展到了其他模型规模。YOLOv12还超越了改进DETR的端到端实时检测器，如RT-DETR / RT-DETRv2：YOLOv12-S在运行速度快42%的情况下，只使用了36%的计算量和45%的参数，就击败了RT-DETR-R18 / RT-DETRv2-R18。更多比较见图1。