LLM2D
TARAC: 通过时间注意力实时累积连接减轻LVLMs的幻觉
TARAC: Mitigating Hallucination in LVLMs via Temporal Attention Real-time Accumulative Connection
作者: Chunzhao Xie, Tongxuan Liu, Lei Jiang, Yuting Zeng, jinrong Guo, Yunheng Shen, Weizhe Huang, Jing Li, Xiaohua Xu
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.04099v1

摘要

arXiv:2504.04099v1 交叉发布公告类型 摘要:大型视觉-语言模型在各种任务中表现出色;然而,幻觉问题限制了它们的实际应用。幻觉问题源自多个因素,包括语言模型本身固有的幻觉、视觉编码器在感知方面的能力限制以及多模态数据引入的偏见。大量研究探索了减轻幻觉的方法。例如,OPERIA通过防止模型过度关注“锚定词元”,从而减少幻觉;而VCD通过采用对比解码方法减轻幻觉。在本文中,我们研究了注意力衰减到图像词元与幻觉发生的关联。基于这一发现,我们提出了一种名为Temporal Attention Real-time Accumulative Connection (TARAC) 的新型无训练方法,该方法在生成过程中动态地累积和更新LVLMs对图像词元的注意力。通过增强模型对图像词元的注意力,TARAC减轻了由注意力衰减导致的幻觉。我们跨多个模型和数据集验证了TARAC的有效性,证明了我们的方法显著减轻了幻觉。具体而言,在CHAIR基准测试中,TARAC相比VCD减少了$C_S$ 25.2和$C_I$ 8.7。