LLM2D

摘要

arXiv:2504.04099v1 交叉发布公告类型摘要：大型视觉-语言模型在各种任务中表现出色；然而，幻觉问题限制了它们的实际应用。幻觉问题源自多个因素，包括语言模型本身固有的幻觉、视觉编码器在感知方面的能力限制以及多模态数据引入的偏见。大量研究探索了减轻幻觉的方法。例如，OPERIA通过防止模型过度关注“锚定词元”，从而减少幻觉；而VCD通过采用对比解码方法减轻幻觉。在本文中，我们研究了注意力衰减到图像词元与幻觉发生的关联。基于这一发现，我们提出了一种名为Temporal Attention Real-time Accumulative Connection (TARAC) 的新型无训练方法，该方法在生成过程中动态地累积和更新LVLMs对图像词元的注意力。通过增强模型对图像词元的注意力，TARAC减轻了由注意力衰减导致的幻觉。我们跨多个模型和数据集验证了TARAC的有效性，证明了我们的方法显著减轻了幻觉。具体而言，在CHAIR基准测试中，TARAC相比VCD减少了$C_S$ 25.2和$C_I$ 8.7。