摘要
arXiv:2502.01419v1 类型:跨领域
摘要:详细的图像说明对于数据生成和辅助视障人士等任务至关重要。高质量的说明需要在精确性和召回率之间达到平衡,这对当前多模态大语言模型(MLLMs)来说仍然具有挑战性。在这项工作中,我们假设这种限制来自于随着响应长度增加,视觉注意力减弱且变得越来越嘈杂。为了应对这个问题,我们提出了一种无需训练的方法SPARC(选择性渐进注意力重新校准),该方法在解码过程中增强了视觉标记的贡献。SPARC基于三个关键观察:(1)增加所有视觉标记的影响会降低召回率;因此,SPARC选择性地放大视觉标记;(2)随着说明的增加,视觉注意力变得越来越嘈杂,因此,SPARC通过利用时间步长之间的注意力差异来识别关键的视觉标记;(3)随着视觉注意力逐渐减弱,SPARC加强它以保持其影响。我们的实验,其中包括自动化和人工评估,表明现有方法在牺牲召回率的情况下提高了MLLMs的精确性。相比之下,我们提出的方法在最小的计算开销下同时提高了精确性和召回率。