摘要
arXiv:2502.11751v1 交叉公告类型
摘要:尽管大型语言模型(LLMs)在语言任务中的推理和生成方面表现出色,但它们并不专门针对多模态挑战进行设计。然而,训练多模态大型语言模型(MLLMs)是一个资源密集型的过程,并受到各种训练限制的制约。在本文中,我们提出了一种基于模块化的视觉对比解码(MVCD)框架来克服这一障碍。我们的框架利用了LLMs的上下文学习(ICL)能力,并且特别为这一框架设计了视觉对比例 Witness 解码(CED),无需任何额外的训练。通过将视觉信号转换为文本,并在解码过程中关注对比输出分布,我们可以突出上下文示例引入的新信息,探索这些信息之间的联系,并避免过度依赖先验编码的知识。MVCD 提升了 LLMS 的视觉感知能力,使其能够看到并推理输入的视觉内容。为了展示 MVCD 的有效性,我们在四个LLMs上对五个问答数据集进行了实验。我们的结果不仅显示了模型精度的一致提升,还很好地解释了我们解码策略中的有效组成部分。我们的代码将在 https://github.com/Pbhgit/MVCD 上提供。