LLM2D

摘要

arXiv:2502.11751v1 交叉公告类型摘要：尽管大型语言模型（LLMs）在语言任务中的推理和生成方面表现出色，但它们并不专门针对多模态挑战进行设计。然而，训练多模态大型语言模型（MLLMs）是一个资源密集型的过程，并受到各种训练限制的制约。在本文中，我们提出了一种基于模块化的视觉对比解码（MVCD）框架来克服这一障碍。我们的框架利用了LLMs的上下文学习（ICL）能力，并且特别为这一框架设计了视觉对比例 Witness 解码（CED），无需任何额外的训练。通过将视觉信号转换为文本，并在解码过程中关注对比输出分布，我们可以突出上下文示例引入的新信息，探索这些信息之间的联系，并避免过度依赖先验编码的知识。MVCD 提升了 LLMS 的视觉感知能力，使其能够看到并推理输入的视觉内容。为了展示 MVCD 的有效性，我们在四个LLMs上对五个问答数据集进行了实验。我们的结果不仅显示了模型精度的一致提升，还很好地解释了我们解码策略中的有效组成部分。我们的代码将在 https://github.com/Pbhgit/MVCD 上提供。