摘要
对语言模型输出的概率进行校准提供了一种可靠评估和利用黑盒大型语言模型 (LLM) 输出的新方法。最近的方法通过将 Platt 缩放或温度缩放等技术应用于 LLM 生成的置信度得分来证明了改进的校准。在本文中,我们探讨了用于判别任务的语言模型输出的概率分布的校准。首先,我们研究了 LLM 生成类别标签概率分布的能力。我们从理论上和经验上确定了由语言模型输出概率的缩放引起的重新 softmax 问题,并建议使用反 softmax 技巧通过反转语言模型输出的概率来近似“logit”。通过对三个公共数据集的广泛评估,我们证明了:(1) LLM 在生成类分布方面的强大能力,以及 (2) 反 softmax 技巧在估计 logits 方面的有效性,这反过来又促进了校准后的调整。