摘要
arXiv:2502.11028v1 交叉公告类型
摘要:大规模语言模型(LLMs)在各种任务中表现出色,但置信度校准仍然是一个挑战。误校准——模型过度自信或不够自信——在高风险应用中尤其具有风险。本文呈现了一项关于LLM校准的经验研究,探讨模型大小、干扰信息和问题类型如何影响自信度对齐。我们提出了一种评估框架,以衡量过度自信,并调查多项选择格式是否降低了或加剧了误校准。我们的研究结果表明,虽然更大的模型(例如,GPT-4o)整体上校准得更好,但它们更容易受到干扰,而较小的模型则受益更多于答案选项,但难以估计不确定性。与之前主要报告误校准趋势的工作不同,我们提供了关于失败模式和使过度自信恶化的条件的可行见解。这些发现突显了需要校准意识干预和改进不确定性估计方法的必要性。