摘要
arXiv:2503.22215v1 交叉公告类型:跨领域
摘要:我们提出LIT,这是视觉指令调优(VIT)的一种进步。虽然VIT为多模态大语言模型(MLLMs)提供了有前景的多模态能力,但当前的VIT设计选择往往导致过拟合和捷径学习,这可能会降低性能。这一差距源于过度强调指令跟随能力,而忽视了主动理解视觉信息。受到这一启发,LIT采用了一种简单而有效的方法,通过将损失函数纳入指令和响应序列中。这无缝地扩展了训练数据,并使MLLMs不再过度依赖语言先验。基于这一优势,LIT在综合多模态基准测试中实现了高达9%的相对改进,无需额外的训练数据,并且计算开销可以忽略不计。令人惊讶的是,LIT在基本视觉能力方面表现出色,图像Captioning性能最高可提高18%,同时也在一定程度上缓解了MLLMs的幻觉现象。