LLM2D
学习使用信心标记路由LLMs
Learning to Route LLMs with Confidence Tokens
作者: Yu-Neng Chuang, Helen Zhou, Prathusha Kameswara Sarma, Parikshit Gopalan, John Boccio, Sara Bolouki, Xia Hu
发布日期: 2/6/2025
arXiv ID: oai:arXiv.org:2410.13284v2

摘要

arXiv:2410.13284v2 宣告类型: replace-cross 摘要:大规模语言模型(LLMs)在多种任务上展现了令人印象深刻的性能,并且越来越多地在实际应用中部署。然而,尤其是在高风险情境下,了解LLM输出可能不可靠的情况变得至关重要。根据答案的可信度,系统可以选择将问题转交给另一个专家,或者退回到安全的默认行为。在这项工作中,我们研究了LLMs在可靠地表示其答案可信度方面的程度,以及这种可信度概念如何转化为下游准确性提升。我们提出了Self-REF,这是一种轻量级的训练策略,旨在教导LLMs以可靠的方式表达其答案是否正确。Self-REF引入了信任度标记到LLM中,从这些信任度标记中可以提取信任度分数。与传统的如表达信任度和检查标记概率的方法相比,我们通过实验证明,信任度标记在下游路由和拒绝学习任务中显示出显著的改进。