LLM2D

摘要

arXiv:2502.06884v1 Announce Type: cross 摘要：大型语言和跨模态模型（LLMs/VLMs）在越来越多的安全关键型应用中被使用，但它们不透明的决策过程使得风险评估和可靠性变得复杂。不确定性量化（UQ）有助于评估预测的信心并在不确定性高时使模型采取回避措施。保守的预测区间（CP），一种领先的UQ方法，提供了统计保证，但依赖于静态阈值，这不能适应任务的复杂性和不断变化的数据分布，导致在准确率、覆盖率和信息性方面产生了次优权衡。为了解决这个问题，我们提出了一种可学习的保守预测方法，将强化学习（RL）与CP结合，以动态优化保守预测阈值。通过将CP阈值视为适应性的动作，我们的方法可以在多个目标间取得平衡，同时减小预测集的大小并维持可靠的覆盖率。在多种LLM/VLM基准测试中进行的广泛评估表明，我们的方法优于最少含糊类分类器（LAC）和自适应预测集（APS），能够将准确率提高多达3.2%，将幻觉检测的AUROC提升22.19%，将不确定性指导的选择性生成（AUARC）提高21.17%，并将校准误差减少70%-85%。这些改进在多个模型和数据集上保持一致，且始终达到90%的覆盖率目标，从而将我们的方法确立为在安全关键型应用中实现可靠决策的更有效、更灵活的解决方案。代码可在以下地址获得：{https://github.com/sinatayebati/vlm-uncertainty}