LLM2D
多模态LLMs的不确定性量化校准 Using Grounding
Calibrating Uncertainty Quantification of Multi-Modal LLMs using Grounding
作者: Trilok Padhi, Ramneet Kaur, Adam D. Cobb, Manoj Acharya, Anirban Roy, Colin Samplawski, Brian Matejek, Alexander M. Berenbeim, Nathaniel D. Bastian, Susmit Jha
发布日期: 5/8/2025
arXiv ID: oai:arXiv.org:2505.03788v1

摘要

arXiv:2505.03788v1 类型: cross 摘要: 我们提出了一种针对多模态大型语言模型 (LLMs) 的不确定性量化 (UQ) 校准的新方法。现有的最先进的 UQ 方法依赖于在不同设置下对输入查询生成的多个响应之间的一致性。然而,这些方法在 LLM 一致错误的情况下往往会报告更高的置信度。这导致了与准确性相关的置信度校准不佳。为了解决这个问题,我们不仅利用自洽性还利用跨模态一致性来改进多模态模型的校准。具体来说,我们将文本响应与视觉输入联系起来。基底模型的置信度被用来校准总体置信度。由于使用基底模型会在管道中引入自己的不确定性,我们应用了温度缩放——一种广泛接受的参数校准技术——来校准基底模型对生成响应准确性置信度的校准。我们在包括医疗问答 (Slake) 和视觉问答 (VQAv2) 等多个多模态任务中评估了所提出的方法,考虑了诸如 LLaVA-Med 和 LLaVA 等多模态模型。实验表明,所提出的框架在这两个任务上实现了显著改进的校准。