摘要
arXiv:2410.13284v2 宣告类型: replace-cross
摘要:大规模语言模型(LLMs)在多种任务上展现了令人印象深刻的性能,并且越来越多地在实际应用中部署。然而,尤其是在高风险情境下,了解LLM输出可能不可靠的情况变得至关重要。根据答案的可信度,系统可以选择将问题转交给另一个专家,或者退回到安全的默认行为。在这项工作中,我们研究了LLMs在可靠地表示其答案可信度方面的程度,以及这种可信度概念如何转化为下游准确性提升。我们提出了Self-REF,这是一种轻量级的训练策略,旨在教导LLMs以可靠的方式表达其答案是否正确。Self-REF引入了信任度标记到LLM中,从这些信任度标记中可以提取信任度分数。与传统的如表达信任度和检查标记概率的方法相比,我们通过实验证明,信任度标记在下游路由和拒绝学习任务中显示出显著的改进。