LLM2D

摘要

arXiv:2406.04370v3 宣告类型：替换-交叉摘要：评估模型响应的不确定性或置信度在评估不仅响应的信任度，也包括整个模型的信任度方面非常重要。在本文中，我们探讨了仅通过简单的方式（即黑盒查询）访问大型语言模型（LLMs）的响应时估计置信度的问题。我们提出了一种简单且可扩展的框架，在该框架中，我们设计了新颖的特征，并在这些特征上训练了一个可解释的模型（即可视化逻辑回归），以估计置信度。我们实证展示了我们的简单框架在使用该框架估计Flan-ul2、Llama-13b、Mistral-7b和GPT-4的四个标准问答任务以及Pegasus-large和BART-large的两个标准总结任务的信心时是有效的，某些情况下甚至在AUROC上超过了基线超过10%。此外，我们的可解释方法揭示了预测置信度的特征，这导致了一个有趣的且有用的发现：我们为一个LLM构建的信心模型在给定的数据集上对其他LLM实现了零样本泛化。