LLM2D
大型语言模型置信度估计通过黑盒访问
Large Language Model Confidence Estimation via Black-Box Access
作者: Tejaswini Pedapati, Amit Dhurandhar, Soumya Ghosh, Soham Dan, Prasanna Sattigeri
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2406.04370v3

摘要

arXiv:2406.04370v3 宣告类型:替换-交叉 摘要:评估模型响应的不确定性或置信度在评估不仅响应的信任度,也包括整个模型的信任度方面非常重要。在本文中,我们探讨了仅通过简单的方式(即黑盒查询)访问大型语言模型(LLMs)的响应时估计置信度的问题。我们提出了一种简单且可扩展的框架,在该框架中,我们设计了新颖的特征,并在这些特征上训练了一个可解释的模型(即可视化逻辑回归),以估计置信度。我们实证展示了我们的简单框架在使用该框架估计Flan-ul2、Llama-13b、Mistral-7b和GPT-4的四个标准问答任务以及Pegasus-large和BART-large的两个标准总结任务的信心时是有效的,某些情况下甚至在AUROC上超过了基线超过10%。此外,我们的可解释方法揭示了预测置信度的特征,这导致了一个有趣的且有用的发现:我们为一个LLM构建的信心模型在给定的数据集上对其他LLM实现了零样本泛化。