LLM2D

摘要

arXiv:2502.01969v1 文本类型: cross 摘要: 大型多模态视觉语言模型（Large Vision-Language Models, LVLMs）展现了令人印象深刻的多模态推理能力，但仍然高度容易出现物体幻象的问题，其中模型生成的响应与视觉内容不符。最近的研究将这个问题归因于LVLMs固有的偏见，即视觉标记注意力图与空间位置之间存在固定的关联，并提出了通过重新排序视觉标记来缓解这一问题的方案。然而，我们发现不同的LVLMs在注意力与空间位置之间的相关性存在差异，这使得现有的解决方案难以泛化到其他LVLMs。为了解决这个问题，我们首先引入了一个无训练解决方案——均匀注意力校准（Uniform Attention Calibration, UAC），该解决方案通过单张无意义输入图像估算偏见，并应用校准矩阵来纠正注意力不平衡。为进一步缓解偏见，我们放松了UAC中单张无意义输入的假设，并引入了一个微调解决方案——动态注意力校准（Dynamic Attention Calibration, DAC），该解决方案通过一个即插即用模块强制在图像中无论物体位于何处都产生一致的输出。多项基准实验全面证明，UAC和DAC显著减少了物体幻象现象，同时改善了整体多模态对齐。我们的方法在多种LVLM架构上实现了各种指标下的最先进的性能。