LLM2D
YOLO-RD:通过检索-字典引入相关且紧凑的显性知识到YOLO
YOLO-RD: Introducing Relevant and Compact Explicit Knowledge to YOLO by Retriever-Dictionary
作者: Hao-Tang Tsui, Chien-Yao Wang, Hong-Yuan Mark Liao
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2410.15346v2

摘要

arXiv:2410.15346v2 宣告类型: replace-cross 摘要:识别和定位图像中的对象是一项基本挑战,人们通过实验不同的架构并改进训练策略来不断提高模型的准确性。然而,现有模型的一个普遍限制是过度重视当前输入,而忽略了整个数据集中的信息。我们引入了一个创新的检索字典(RD)模块来解决这个问题。该架构使基于YOLO的模型能够高效地从字典中检索包含数据集洞察的知识,该字典是通过视觉模型(VM)、大型语言模型(LLM)或视觉语言模型(VLM)的知识构建的。灵活的RD使模型能够结合这种显性的知识,从而增强其从像素到图像级别受益于多种任务的能力,特别是分割、检测和分类。实验结果显示,使用RD可以显著提高模型性能,在对象检测中平均精度的提高超过3%,同时模型参数的增加不到1%。除了1阶段对象检测模型外,RD模块还提高了2阶段模型和DETR基础架构(如Faster R-CNN和Deformable DETR)的有效性。代码已发布在 https://github.com/henrytsui000/YOLO。