摘要
arXiv:2410.15346v2 宣告类型: replace-cross
摘要:识别和定位图像中的对象是一项基本挑战,人们通过实验不同的架构并改进训练策略来不断提高模型的准确性。然而,现有模型的一个普遍限制是过度重视当前输入,而忽略了整个数据集中的信息。我们引入了一个创新的检索字典(RD)模块来解决这个问题。该架构使基于YOLO的模型能够高效地从字典中检索包含数据集洞察的知识,该字典是通过视觉模型(VM)、大型语言模型(LLM)或视觉语言模型(VLM)的知识构建的。灵活的RD使模型能够结合这种显性的知识,从而增强其从像素到图像级别受益于多种任务的能力,特别是分割、检测和分类。实验结果显示,使用RD可以显著提高模型性能,在对象检测中平均精度的提高超过3%,同时模型参数的增加不到1%。除了1阶段对象检测模型外,RD模块还提高了2阶段模型和DETR基础架构(如Faster R-CNN和Deformable DETR)的有效性。代码已发布在 https://github.com/henrytsui000/YOLO。