LLM2D

摘要

arXiv:2502.01969v1 类型: cross 摘要: 大规模多模态模型 (LVLMs) 展现出令人印象深刻的跨模态推理能力，但仍然高度容易出现物体幻觉问题，即模型生成的内容与视觉内容不符的响应。最近的研究将这一问题归因于 LVLMs 内在的偏差，即视觉词元注意图与空间位置之间具有固定的关联性，并提议通过重新排序视觉词元来缓解这一问题。然而，我们发现不同类型的 LVLMs 之间视觉词元注意与空间位置之间的关联性不同，这使得现有的解决方案难以泛化到其他 LVLMs。为了解决这个问题，我们首先引入了一种无需训练的解决方案——统一注意校准 (UAC)，它仅从无意义的输入图像中估计偏差，并应用一个校准矩阵来纠正注意力不平衡。为了进一步减轻偏差，我们放松了 UAC 中单个无意义输入图像的假设，并引入了一种微调解决方案——动态注意校准 (DAC)，通过插件模块强制图像中标记对象的一致输出。跨多个基准的全面实验表明，UAC 和 DAC 显著减少了物体幻觉，同时提高了整体跨模态对齐。我们的方法在多种 LVLM 架构上各种指标上实现了最先进的性能。