LLM2D
大型语言模型的去学习与对齐的概率视角
A Probabilistic Perspective on Unlearning and Alignment for Large Language Models
作者: Yan Scholten, Stephan G\"unnemann, Leo Schwinn
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2410.03523v5

摘要

arXiv:2410.03523v5 宣告类型: 替换-交叉 摘要:全面评估大型语言模型(LLMs)是一个开放的研究问题。现有的评估依赖于通过贪婪解码生成的确定性点估计。然而,我们发现确定性评估无法捕捉模型的整个输出分布,导致对模型能力的不准确估计。这在卸载和对齐等关键背景下尤为 problematic,因为精确的模型评估至关重要。为了弥补这一不足,我们首次提出了一个正式的概率评估框架用于LLMs。具体来说,我们提出了具有高概率保障的新颖度量标准,这些度量标准与模型的输出分布相关。我们的度量标准是应用无关的,并允许从业者在部署前更准确地估计模型能力。我们的实验分析表明,确定性评估错误地指出了成功的卸载和对齐,而我们的概率评估更好地捕捉了模型能力。我们通过在卸载案例研究中引入(1) 基于熵优化的新颖损失函数和(2) 适应性温度缩放,展示了如何克服与概率输出相关的一些挑战。我们证明,我们的方法在最近的基准测试中显著增强了概率设置下的卸载性能。总体而言,我们提出的从确定性评估到概率评估输出分布的转变是全面评估LLMs的重要一步。代码可在 https://www.cs.cit.tum.de/daml/probabilistic-unlearning/ 获取。