LLM2D

摘要

大型语言模型 (LLMs) 的有效性不仅体现在其生成准确输出的能力，还在于其校准程度——其置信度得分在多大程度上反映了其输出正确的概率。虽然无监督预训练已被证明可以产生具有良好校准条件概率的 LLMs，但最近的研究表明，在使用来自人类反馈的强化学习 (RLHF) 进行微调后，这些模型的校准度会显著下降。在本研究中，我们介绍了自适应温度缩放 (ATS)，这是一种事后校准方法，它预测每个词元预测的温度缩放参数。预测的温度值根据词元级别的特征进行调整，并在标准监督微调 (SFT) 数据集上进行拟合。ATS 的自适应性解决了 RLHF 微调后可能发生的校准偏移程度不同的问题。与之前的校准方法相比，ATS 在三个下游自然语言评估基准上将校准度提高了 10-50%，并且不会阻碍 RLHF 带来的性能提升。