LLM2D

摘要

arXiv:2502.01419v1 类型:跨领域摘要：详细的图像说明对于数据生成和辅助视障人士等任务至关重要。高质量的说明需要在精确性和召回率之间达到平衡，这对当前多模态大语言模型（MLLMs）来说仍然具有挑战性。在这项工作中，我们假设这种限制来自于随着响应长度增加，视觉注意力减弱且变得越来越嘈杂。为了应对这个问题，我们提出了一种无需训练的方法SPARC（选择性渐进注意力重新校准），该方法在解码过程中增强了视觉标记的贡献。SPARC基于三个关键观察：（1）增加所有视觉标记的影响会降低召回率；因此，SPARC选择性地放大视觉标记；（2）随着说明的增加，视觉注意力变得越来越嘈杂，因此，SPARC通过利用时间步长之间的注意力差异来识别关键的视觉标记；（3）随着视觉注意力逐渐减弱，SPARC加强它以保持其影响。我们的实验，其中包括自动化和人工评估，表明现有方法在牺牲召回率的情况下提高了MLLMs的精确性。相比之下，我们提出的方法在最小的计算开销下同时提高了精确性和召回率。