LLM2D
视觉注意力永不衰退:选择性逐步注意力重新校准用于多模态大型语言模型中的详细图像 captioning
Visual Attention Never Fades: Selective Progressive Attention ReCalibration for Detailed Image Captioning in Multimodal Large Language Models
作者: Mingi Jung, Saehuyng Lee, Eunji Kim, Sungroh Yoon
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.01419v1

摘要

arXiv:2502.01419v1 类型:跨领域 摘要:详细的图像说明对于数据生成和辅助视障人士等任务至关重要。高质量的说明需要在精确性和召回率之间达到平衡,这对当前多模态大语言模型(MLLMs)来说仍然具有挑战性。在这项工作中,我们假设这种限制来自于随着响应长度增加,视觉注意力减弱且变得越来越嘈杂。为了应对这个问题,我们提出了一种无需训练的方法SPARC(选择性渐进注意力重新校准),该方法在解码过程中增强了视觉标记的贡献。SPARC基于三个关键观察:(1)增加所有视觉标记的影响会降低召回率;因此,SPARC选择性地放大视觉标记;(2)随着说明的增加,视觉注意力变得越来越嘈杂,因此,SPARC通过利用时间步长之间的注意力差异来识别关键的视觉标记;(3)随着视觉注意力逐渐减弱,SPARC加强它以保持其影响。我们的实验,其中包括自动化和人工评估,表明现有方法在牺牲召回率的情况下提高了MLLMs的精确性。相比之下,我们提出的方法在最小的计算开销下同时提高了精确性和召回率。