摘要
arXiv:2502.01969v1 类型: cross
摘要: 大规模多模态模型 (LVLMs) 展现出令人印象深刻的跨模态推理能力,但仍然高度容易出现物体幻觉问题,即模型生成的内容与视觉内容不符的响应。最近的研究将这一问题归因于 LVLMs 内在的偏差,即视觉词元注意图与空间位置之间具有固定的关联性,并提议通过重新排序视觉词元来缓解这一问题。然而,我们发现不同类型的 LVLMs 之间视觉词元注意与空间位置之间的关联性不同,这使得现有的解决方案难以泛化到其他 LVLMs。为了解决这个问题,我们首先引入了一种无需训练的解决方案——统一注意校准 (UAC),它仅从无意义的输入图像中估计偏差,并应用一个校准矩阵来纠正注意力不平衡。为了进一步减轻偏差,我们放松了 UAC 中单个无意义输入图像的假设,并引入了一种微调解决方案——动态注意校准 (DAC),通过插件模块强制图像中标记对象的一致输出。跨多个基准的全面实验表明,UAC 和 DAC 显著减少了物体幻觉,同时提高了整体跨模态对齐。我们的方法在多种 LVLM 架构上各种指标上实现了最先进的性能。