摘要
arXiv:2504.12137v1 Announce Type: cross
摘要:尽管近年来大型视觉语言模型(LVLMs)取得了进展,但这些模型仍然会产生与提供的视觉输入不符的幻觉响应。为缓解这种幻觉现象,我们引入了一种高效对比解码(ECD)方法,这是一种简单的利用概率幻觉检测方法,在推理时将输出分布转向语境准确的答案。通过对比词token的概率和幻觉分数,ECD从原始分布中减去了幻觉的概念,有效地抑制了幻觉。值得注意的是,我们提出的方法可以应用于任何开源LVLM,并且不需要额外的LVLM训练。我们在几个基准数据集和不同的LVLM上评估了该方法。我们的实验表明,ECD有效缓解了幻觉现象,在LVLM基准测试性能和计算时间方面超过了最先进的方法。