LLM2D

摘要

arXiv:2503.22215v1 交叉公告类型：跨领域摘要：我们提出LIT，这是视觉指令调优（VIT）的一种进步。虽然VIT为多模态大语言模型（MLLMs）提供了有前景的多模态能力，但当前的VIT设计选择往往导致过拟合和捷径学习，这可能会降低性能。这一差距源于过度强调指令跟随能力，而忽视了主动理解视觉信息。受到这一启发，LIT采用了一种简单而有效的方法，通过将损失函数纳入指令和响应序列中。这无缝地扩展了训练数据，并使MLLMs不再过度依赖语言先验。基于这一优势，LIT在综合多模态基准测试中实现了高达9%的相对改进，无需额外的训练数据，并且计算开销可以忽略不计。令人惊讶的是，LIT在基本视觉能力方面表现出色，图像Captioning性能最高可提高18%，同时也在一定程度上缓解了MLLMs的幻觉现象。