LLM2D

摘要

arXiv:2410.15346v2 宣告类型: replace-cross 摘要：识别和定位图像中的对象是一项基本挑战，人们通过实验不同的架构并改进训练策略来不断提高模型的准确性。然而，现有模型的一个普遍限制是过度重视当前输入，而忽略了整个数据集中的信息。我们引入了一个创新的检索字典（RD）模块来解决这个问题。该架构使基于YOLO的模型能够高效地从字典中检索包含数据集洞察的知识，该字典是通过视觉模型（VM）、大型语言模型（LLM）或视觉语言模型（VLM）的知识构建的。灵活的RD使模型能够结合这种显性的知识，从而增强其从像素到图像级别受益于多种任务的能力，特别是分割、检测和分类。实验结果显示，使用RD可以显著提高模型性能，在对象检测中平均精度的提高超过3%，同时模型参数的增加不到1%。除了1阶段对象检测模型外，RD模块还提高了2阶段模型和DETR基础架构（如Faster R-CNN和Deformable DETR）的有效性。代码已发布在 https://github.com/henrytsui000/YOLO。