摘要
大型语言模型 (LLMs) 的全面评估是一个开放的研究问题。现有的评估依赖于通过贪婪解码生成的确定性点估计。然而,我们发现确定性评估未能捕捉模型的整个输出分布,从而导致对模型能力的估计不准确。这在诸如遗忘和对齐等关键环境中尤其成问题,因为在这些环境中,精确的模型评估至关重要。为了解决这个问题,我们引入了第一个正式的 LLM 概率评估框架。具体来说,我们推导出关于模型输出分布的新度量,并具有高概率保证。我们的度量与应用无关,允许从业人员在部署之前对模型能力做出更可靠的估计。通过一个专注于遗忘的案例研究,我们发现确定性评估错误地表明遗忘成功,而我们的概率评估表明,这些模型中大多数(如果不是全部)的所谓遗忘信息仍然可以访问。此外,我们提出了一种基于熵优化和自适应温度缩放的新遗忘损失,这在最近的基准测试中显着提高了概率设置下的遗忘。我们提出的从点估计到输出分布的概率评估的转变代表了朝着全面评估 LLM 的重要一步。