LLM2D

摘要

arXiv:2505.03788v1 类型: cross 摘要: 我们提出了一种针对多模态大型语言模型 (LLMs) 的不确定性量化 (UQ) 校准的新方法。现有的最先进的 UQ 方法依赖于在不同设置下对输入查询生成的多个响应之间的一致性。然而，这些方法在 LLM 一致错误的情况下往往会报告更高的置信度。这导致了与准确性相关的置信度校准不佳。为了解决这个问题，我们不仅利用自洽性还利用跨模态一致性来改进多模态模型的校准。具体来说，我们将文本响应与视觉输入联系起来。基底模型的置信度被用来校准总体置信度。由于使用基底模型会在管道中引入自己的不确定性，我们应用了温度缩放——一种广泛接受的参数校准技术——来校准基底模型对生成响应准确性置信度的校准。我们在包括医疗问答 (Slake) 和视觉问答 (VQAv2) 等多个多模态任务中评估了所提出的方法，考虑了诸如 LLaVA-Med 和 LLaVA 等多模态模型。实验表明，所提出的框架在这两个任务上实现了显著改进的校准。