LLM2D

摘要

arXiv:2410.13321v2 通知类型：替换摘要：大型视觉语言模型（LVLMs）在生成与视觉输入相关的详细和连贯的响应方面表现出令人印象深刻的能力。然而，由于过度依赖语言先验，它们容易产生幻觉。为了解决这一问题，我们研究了LVLM中的语言先验，并作出两项关键观察：（1）当预测与图像相关的词性（POS）相关的令牌时，随着令牌序列的增长，模型越来越多地依赖于语言先验，从而加剧了幻觉现象。（2）直接校准LVLM的输出分布以减轻语言先验的方法可能会导致文本质量下降，甚至加剧幻觉现象。基于这些发现，我们提出了一种新颖的方法——摘要引导解码（SumGD）。此方法自然地鼓励模型更多地关注图像信息，通过摘要减少文本上下文，同时只控制与图像相关的POS令牌以保持文本质量。通过实验，我们展示了SumGD在物体幻觉基准测试中达到了最先进的性能。此外，在精确性和召回率之间的权衡方面，SumGD在现有方法中达到帕累托最优。最后，我们观察到，尽管现有方法难以在减少物体幻觉与保持文本质量之间取得平衡，SumGD在处理这一挑战方面表现出很强的鲁棒性。