LLM2D

摘要

评估模型响应的不确定性或置信度对于评估对响应的信任以及对模型本身的信任都至关重要。本文探讨了在仅能以黑盒或查询方式访问大型语言模型 (LLM) 的情况下，估计其响应置信度的难题。我们提出一个简单且可扩展的框架，在这个框架中，我们设计了新颖的特征并训练了一个（可解释的）模型（即逻辑回归）来估计置信度。我们通过实证证明，我们的简单框架在估计 Flan-ul2、Llama-13b 和 Mistral-7b 在四个基准问答任务上的置信度以及 Pegasus-large 和 BART-large 在两个基准摘要任务上的置信度方面是有效的，在某些情况下，它甚至超过了基线超过 10%（在 AUROC 上）。此外，我们的可解释方法提供了对预测置信度的特征的洞察，从而导致了一个有趣且有用的发现，即我们为一个 LLM 建立的置信度模型在给定数据集上对其他 LLM 进行零样本泛化。