摘要
大型视觉语言模型(LVLMs)在应用中面临着幻觉的挑战。与大型语言模型(LLMs)不同,LVLMs 中的幻觉通常源于视觉输入和文本输出之间的错位。本文研究了幻觉的潜在机制,重点关注区分 LVLMs 与大型语言模型(LLMs)的独特结构。我们发现幻觉通常源于文本解码器对视觉输入的敏感性,这是图像编码器和文本解码器分别预训练时的自然现象。受此启发,我们引入了视觉和文本干预(VTI),这是一种旨在通过在推理过程中引导潜在空间表示来增强视觉特征的稳定性从而减少幻觉的新技术。作为一项与任务无关的测试时干预措施,VTI 可以轻松地应用于任何问题,而无需额外成本。大量实验表明,它可以有效地减少幻觉,并在多个指标上优于基线方法,突出了视觉特征稳定性在 LVLMs 中的关键作用。