LLM2D

摘要

arXiv:2409.09564v2 公告类型: 替换-交叉摘要: 当前，受到视觉-语言模型（VLMs）成功的启发，越来越多的研究人员致力于改进VLMs，并取得了令人鼓舞的成果。然而，大多数现有方法集中在优化连接器和增强语言模型组件上，而忽视了对视觉编码器本身的改进。相比之下，本文提出了文本引导的LLaVA（TG-LLaVA），通过文本引导视觉编码器来优化VLMs，提供了一种新的正交优化方向。具体而言，受人类行为中固有的目的驱动逻辑启发，我们使用可学习的潜在嵌入作为桥梁来分析文本指令，并将分析结果添加到视觉编码器中作为指导，从而对其进行精炼。随后，另一组潜在嵌入从高分辨率局部补丁中提取额外的详细文本引导信息作为辅助信息。最终，在文本的指导下，视觉编码器能够提取与文本相关的特征，类似于人类在考虑问题时关注图像中最相关的部分。这导致生成更好的答案。在各种数据集上的实验验证了所提出方法的有效性。值得注意的是，无需额外的训练数据，我们的方法相较于其他同期方法，能够为基线（LLaVA-1.5）带来更多益处。此外，所提出的方法在不同设置下持续带来改进。