LLM2D
基于归纳可信推论的数据驱动的大规模视觉-语言模型预测集校准
Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction
作者: Yuanchang Ye, Weiyan Wen
发布日期: 5/16/2025
arXiv ID: oai:arXiv.org:2504.17671v3

摘要

arXiv:2504.17671v3 宣告类型: replace-cross 摘要:本文通过分束一致预测(Split Conformal Prediction, SCP)框架解决大型视觉-语言模型(LVLMs)在视觉问答(VQA)任务中幻觉缓解的关键挑战。虽然LVLMs在多模态推理方面表现出色,但它们的输出往往伴随着高置信度的幻觉内容,这对安全性关键应用构成了风险。本文提出了一种模型无关的不确定性量化方法,结合动态阈值校准和跨模态一致性验证。通过将数据划分为校准集和测试集,框架计算非一致性得分,从而在用户定义的风险水平($\alpha$)下构建具有统计保证的预测集。关键创新包括:(1)严格控制边际覆盖,确保经验误差率严格低于$\alpha$;(2)根据$\alpha$动态调整预测集大小,过滤低置信度输出;(3)消除先验分布假设,无需重新训练。在八种LVLMs基准测试(ScienceQA, MMMU)上进行的评估显示,SCP在所有$\alpha$值下强制执行理论保证。该框架在不同校准到测试分割比率下实现稳定性能,强调其在卫生保健、自主系统及其他安全性关键领域的实际部署的鲁棒性。本文填补了多模态AI系统中理论可靠性和实用可行性的差距,提供了一种可扩展的幻觉检测和不确定性感知决策解决方案。