LLM2D

摘要

arXiv:2504.17671v3 宣告类型: replace-cross 摘要：本文通过分束一致预测（Split Conformal Prediction, SCP）框架解决大型视觉-语言模型（LVLMs）在视觉问答（VQA）任务中幻觉缓解的关键挑战。虽然LVLMs在多模态推理方面表现出色，但它们的输出往往伴随着高置信度的幻觉内容，这对安全性关键应用构成了风险。本文提出了一种模型无关的不确定性量化方法，结合动态阈值校准和跨模态一致性验证。通过将数据划分为校准集和测试集，框架计算非一致性得分，从而在用户定义的风险水平（$\alpha$）下构建具有统计保证的预测集。关键创新包括：（1）严格控制边际覆盖，确保经验误差率严格低于$\alpha$；（2）根据$\alpha$动态调整预测集大小，过滤低置信度输出；（3）消除先验分布假设，无需重新训练。在八种LVLMs基准测试（ScienceQA, MMMU）上进行的评估显示，SCP在所有$\alpha$值下强制执行理论保证。该框架在不同校准到测试分割比率下实现稳定性能，强调其在卫生保健、自主系统及其他安全性关键领域的实际部署的鲁棒性。本文填补了多模态AI系统中理论可靠性和实用可行性的差距，提供了一种可扩展的幻觉检测和不确定性感知决策解决方案。