LLM2D

摘要

arXiv:2410.13321v3 通告类型: 更改摘要: 大型视觉-语言模型（LVLMs）展示了从视觉输入生成详细且连贯响应的出色能力。然而，由于过度依赖语言先验，它们容易生成幻觉。为了解决这一问题，我们探讨了LVLM中的语言先验，并做出了两个关键观察：(1) 即使在预测与图像相关的词性（POS）相关的token时，随着token序列的增长，模型越来越依赖于语言先验，从而放大了幻觉。(2) 直接校正LVLM输出分布以缓解语言先验的方法可能会导致文本质量下降，甚至加剧幻觉。基于这些发现，我们提出了一种新颖的方法——Summary-Guided解码（SumGD）。该方法通过减少文本上下文的方式自然促使模型更多地关注图像信息，同时仅控制与图像相关的POS token以维持文本质量。通过实验，我们证明SumGD在对象幻觉基准测试中达到了最先进的性能。此外，就精确性和召回率之间的权衡而言，SumGD在现有方法中实现了帕累托最优。最后，我们观察到，尽管现有方法难以在减少对象幻觉与维持文本质量之间取得平衡，但SumGD在应对这一挑战时表现出较强的鲁棒性。