摘要
大型语言模型 (LLMs) 的有效性不仅体现在其生成准确输出的能力,还在于其校准程度——其置信度得分在多大程度上反映了其输出正确的概率。虽然无监督预训练已被证明可以产生具有良好校准条件概率的 LLMs,但最近的研究表明,在使用来自人类反馈的强化学习 (RLHF) 进行微调后,这些模型的校准度会显著下降。在本研究中,我们介绍了自适应温度缩放 (ATS),这是一种事后校准方法,它预测每个词元预测的温度缩放参数。预测的温度值根据词元级别的特征进行调整,并在标准监督微调 (SFT) 数据集上进行拟合。ATS 的自适应性解决了 RLHF 微调后可能发生的校准偏移程度不同的问题。与之前的校准方法相比,ATS 在三个下游自然语言评估基准上将校准度提高了 10-50%,并且不会阻碍 RLHF 带来的性能提升。