LLM2D

摘要

我们研究了 14 种针对聊天进行微调的大型语言模型 (LLM)，发现它们在多项选择问答中的最大 Softmax 概率 (MSP) 始终存在误校准现象。然而，这些 MSP 仍然可能编码有用的不确定性信息。具体来说，我们假设错误答案与正确答案相比将具有更小的 MSP。通过严格的统计检验，我们证明了对于在基础问答任务中表现良好的模型，这一假设成立。我们还发现问答准确率与 MSP 正确性预测之间存在很强的方向相关性，而问答准确率与校准误差之间则没有相关性。这表明在当前的微调范式中，我们可以预期随着 LLM 能力的进步，正确性预测会提高，但校准不会提高。为了证明正确性预测的效用，我们展示了当模型可以选择放弃时，可以通过基于初始模型响应的 MSP 选择性放弃来提高性能，而只需要少量标记数据来选择 MSP 阈值。