LLM2D

摘要

近年来，大型视觉语言模型 (LVLMs) 取得了快速进展，但“幻觉”问题作为一个显著瓶颈，阻碍了其在现实世界的应用。现有方法主要从两个方面缓解这个问题：一种方法利用额外的知识，例如使用精选数据集对LVLMs进行鲁棒指令微调或采用辅助分析网络，这不可避免地会增加额外成本；另一种方法称为对比解码，通过手动扰乱视觉或指令原始输入来诱导幻觉，并通过对比扰动和原始LVLMs的输出结果来减轻幻觉。然而，这些方法依赖于经验性的整体输入扰动，并使推理成本加倍。为了避免这些问题，我们提出了一种简单而有效的方法，称为自省解码 (SID)。我们的实证研究表明，预训练的LVLMs可以根据之前的视觉和文本（包括指令和生成的文本）标记，自省地评估视觉标记的重要性。我们开发了上下文和文本感知标记选择 (CT2S) 策略，该策略仅保留LVLMs早期层之后不重要的视觉标记，以自适应地放大文本引导的幻觉，从而在自回归解码过程中实现。这种方法确保在早期层吸收的多模态知识会诱导出多模态上下文，而不是漫无目的的幻觉。随后，原始标记对数概率减去放大的视觉和文本关联幻觉，引导LVLMs忠实地进行解码。大量的实验表明，SID在各种指标下都能生成更少幻觉和更高质量的文本，而无需额外的知识和大量的额外计算负担。