LLM2D
对话式大型语言模型的概率校准不佳,但仍能预测多项选择问答的正确性
Probabilities of Chat LLMs Are Miscalibrated but Still Predict Correctness on Multiple-Choice Q&A
作者: Benjamin Plaut, Nguyen X. Khanh, Tu Trinh
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2402.13213v2

摘要

我们研究了 14 种针对聊天进行微调的大型语言模型 (LLM),发现它们在多项选择问答中的最大 Softmax 概率 (MSP) 始终存在误校准现象。然而,这些 MSP 仍然可能编码有用的不确定性信息。具体来说,我们假设错误答案与正确答案相比将具有更小的 MSP。通过严格的统计检验,我们证明了对于在基础问答任务中表现良好的模型,这一假设成立。我们还发现问答准确率与 MSP 正确性预测之间存在很强的方向相关性,而问答准确率与校准误差之间则没有相关性。这表明在当前的微调范式中,我们可以预期随着 LLM 能力的进步,正确性预测会提高,但校准不会提高。为了证明正确性预测的效用,我们展示了当模型可以选择放弃时,可以通过基于初始模型响应的 MSP 选择性放弃来提高性能,而只需要少量标记数据来选择 MSP 阈值。