LLM2D

摘要

arXiv:2502.03628v1 交叉公告类型摘要：大型视觉-语言模型（LVLMs）可以在文本和视觉输入之间进行有效的推理，但它们往往会生成语法上连贯但与视觉内容无关的内容。本文通过在整个生成过程中检查标记对数排名来研究幻觉的内部动态，揭示了LVLMs处理信息的三种关键模式：(1) 视觉信息逐渐丢失——在生成过程中，与视觉内容相关的标记逐渐变得不太受欢迎；(2) 早期兴奋——具有语义意义的标记在其层中的激活会在最终层之前达到峰值；(3) 隐藏的真实信息——尽管最终未被决定，但在推理过程中，与视觉内容相关的标记仍然保持相对较高的排名。基于这些洞察，我们提出了一种无需训练的推理时干预框架VISTA（基于标记对数增强的视觉信息导向），该框架减少了幻觉同时促进真实信息。VISTA通过结合两种互补的方法起作用：在激活空间中增强视觉信息，并利用早期层的激活来促进具有语义意义的解码。与现有方法相比，VISTA不需要外部监督，并且适用于各种解码策略。广泛的实验证明，与评估的开放生成任务相比，VISTA平均减少了约40%的幻觉；并且在三种解码策略下的四种架构和四种基准测试中，VISTA始终优于现有方法。