摘要
arXiv:2504.17671v2 通知类型: replace-cross
摘要:本文通过Split Conformal Prediction (SCP)框架解决大型视觉-语言模型(LVLM)在视觉问答(VQA)任务中幻觉抑制的关键挑战。尽管LVLM在多模态推理方面表现出色,但它们的输出经常包含高置信度的幻觉内容,这在安全关键应用中存在风险。我们提出了一种模型无关的不确定性量化方法,该方法结合了动态阈值校准和跨模态一致性验证。通过将数据划分为校准集和测试集,该框架计算非一致性分数,以在用户定义的风险水平($\alpha$)下提供统计保证的预测集。关键创新包括:(1) 严格控制边际覆盖范围,确保经验误差率严格低于$\alpha$;(2) 动态调整预测集的大小与$\alpha$成反比,滤除低置信度输出;(3) 消除了先验分布假设和重新训练要求。在八个LVLM和基准测试(ScienceQA, MMMU)上的评估表明,SCP在所有$\alpha$值下执行理论保证。该框架在不同校准到测试分割比下的性能保持稳定,证明了其在医疗保健、自主系统和其他安全敏感领域实际部署中的稳健性。本工作为多模态AI系统之间的理论可靠性和实际适用性之间的差距提供了桥梁,提供了一种可扩展的幻觉检测和不确定性感知决策解决方案。