LLM2D
性能提升的幻象:对抗解码为何无法解决多模态幻觉
The Mirage of Performance Gains: Why Contrastive Decoding Fails to Address Multimodal Hallucination
作者: Hao Yin, Guangzong Si, Zilei Wang
发布日期: 4/21/2025
arXiv ID: oai:arXiv.org:2504.10020v2

摘要

arXiv:2504.10020v2 Announce Type: replace-cross 摘要:对比解码策略广泛用于减少多模态大型语言模型(MLLMs)中的自生成现象。这些方法通过构造对比样本来诱导自生成现象,然后在输出分布中抑制它们。然而,本文展示了这类方法在有效缓解自生成问题方面存在缺陷。POPE基准上观察到的性能提升主要由两个误导性的因素驱动:(1) 对模型输出分布进行粗略的单向调整,(2) 自适应可 plausibility 约束,这将采样策略简化为贪婪搜索。为了进一步说明这些问题,我们引入了一系列虚假改进方法,并将这些方法的性能与对比解码技术进行了评估。实验结果揭示,对比解码观察到的性能提升与缓解自生成现象的目标完全无关。我们的 findings 挑战了对比解码策略有效性的常见假设,并为开发真正有效的 MLLMs 中自生成现象解决方案铺平了道路。