LLM2D
自省解码:减轻大型视觉语言模型的幻觉
Self-Introspective Decoding: Alleviating Hallucinations for Large Vision-Language Models
作者: Fushuo Huo, Wenchao Xu, Zhong Zhang, Haozhao Wang, Zhicheng Chen, Peilin Zhao
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2408.02032v2

摘要

近年来,大型视觉语言模型 (LVLMs) 取得了快速进展,但“幻觉”问题作为一个显著瓶颈,阻碍了其在现实世界的应用。现有方法主要从两个方面缓解这个问题:一种方法利用额外的知识,例如使用精选数据集对LVLMs进行鲁棒指令微调或采用辅助分析网络,这不可避免地会增加额外成本;另一种方法称为对比解码,通过手动扰乱视觉或指令原始输入来诱导幻觉,并通过对比扰动和原始LVLMs的输出结果来减轻幻觉。然而,这些方法依赖于经验性的整体输入扰动,并使推理成本加倍。为了避免这些问题,我们提出了一种简单而有效的方法,称为自省解码 (SID)。我们的实证研究表明,预训练的LVLMs可以根据之前的视觉和文本(包括指令和生成的文本)标记,自省地评估视觉标记的重要性。我们开发了上下文和文本感知标记选择 (CT2S) 策略,该策略仅保留LVLMs早期层之后不重要的视觉标记,以自适应地放大文本引导的幻觉,从而在自回归解码过程中实现。这种方法确保在早期层吸收的多模态知识会诱导出多模态上下文,而不是漫无目的的幻觉。随后,原始标记对数概率减去放大的视觉和文本关联幻觉,引导LVLMs忠实地进行解码。大量的实验表明,SID在各种指标下都能生成更少幻觉和更高质量的文本,而无需额外的知识和大量的额外计算负担。