LLM2D

摘要

arXiv:2410.03523v5 宣告类型: 替换-交叉摘要：全面评估大型语言模型（LLMs）是一个开放的研究问题。现有的评估依赖于通过贪婪解码生成的确定性点估计。然而，我们发现确定性评估无法捕捉模型的整个输出分布，导致对模型能力的不准确估计。这在卸载和对齐等关键背景下尤为 problematic，因为精确的模型评估至关重要。为了弥补这一不足，我们首次提出了一个正式的概率评估框架用于LLMs。具体来说，我们提出了具有高概率保障的新颖度量标准，这些度量标准与模型的输出分布相关。我们的度量标准是应用无关的，并允许从业者在部署前更准确地估计模型能力。我们的实验分析表明，确定性评估错误地指出了成功的卸载和对齐，而我们的概率评估更好地捕捉了模型能力。我们通过在卸载案例研究中引入(1) 基于熵优化的新颖损失函数和(2) 适应性温度缩放，展示了如何克服与概率输出相关的一些挑战。我们证明，我们的方法在最近的基准测试中显著增强了概率设置下的卸载性能。总体而言，我们提出的从确定性评估到概率评估输出分布的转变是全面评估LLMs的重要一步。代码可在 https://www.cs.cit.tum.de/daml/probabilistic-unlearning/ 获取。