LLM2D

摘要

arXiv:2501.13400v2 宣布类型: replace-cross 摘要：在基于深度学习的计算机视觉领域，YOLO引起了革命性的变革。对于深度学习模型而言，YOLO可能是发展速度最快的模型之一。不幸的是，并非每一个YOLO模型都拥有学术出版物。此外，还存在一个YOLO模型缺乏可公开访问的官方架构图。自然而然地，这引发了挑战，如复杂化了对模型实际运行方式的理解。此外，目前的综述文章并没有深入探讨每一个模型的细节。本研究的目的是全面且深入地比较最近四个YOLO模型（具体而言是YOLOv8到YOLO11）的架构，从而帮助读者快速了解每个模型的功能及其之间的差异。为了分析每个YOLO版本的架构，我们仔细检查了相关的学术论文、文档，并审查了源代码。分析结果显示，尽管每个版本的YOLO在架构和特征提取方面有所改进，但某些模块保持不变。缺乏学术出版物和官方图示造成了理解模型功能及其未来改进的挑战。未来开发者被鼓励提供这些资源。