摘要
大型语言模型(LLMs)经常生成不准确或虚假的信息,并且通常无法表明其置信度,这限制了其更广泛的应用。之前的工作通过直接或自一致性提示或构建特定数据集进行监督微调来从 LLMs 中 elicits 信任度。基于提示的方法性能较差,而基于训练的方法仅限于二进制或不准确的组级置信度估计。在这项工作中,我们提出了先进的 SaySelf,这是一个训练框架,它教会 LLMs 表达更准确的细粒度置信度估计。此外,除了置信度得分外,SaySelf 还启动了引导 LLMs 生成自我反思的理由的过程,这些理由清楚地识别了其参数知识中的差距并解释了其不确定性。这是通过使用 LLM 自动总结特定知识中的不确定性来实现的,通过自然语言。总结基于对多个采样推理链中不一致性的分析,并将生成的数据用于监督微调。此外,我们利用强化学习以及精心设计的奖励函数来校准置信度估计,激励 LLMs 提供准确、高置信度的预测,并惩罚错误输出中的过度自信。在分布内和分布外数据集上的实验结果证明了 SaySelf 在减少置信度校准误差和维持任务性能方面的有效性。我们表明,生成的自我反思理由是合理的,并且可以进一步有助于校准。代码已在 https://github.com/xu1868/SaySelf 公开。