LLM2D

摘要

arXiv:2410.13284v2 宣告类型: replace-cross 摘要：大规模语言模型（LLMs）在多种任务上展现了令人印象深刻的性能，并且越来越多地在实际应用中部署。然而，尤其是在高风险情境下，了解LLM输出可能不可靠的情况变得至关重要。根据答案的可信度，系统可以选择将问题转交给另一个专家，或者退回到安全的默认行为。在这项工作中，我们研究了LLMs在可靠地表示其答案可信度方面的程度，以及这种可信度概念如何转化为下游准确性提升。我们提出了Self-REF，这是一种轻量级的训练策略，旨在教导LLMs以可靠的方式表达其答案是否正确。Self-REF引入了信任度标记到LLM中，从这些信任度标记中可以提取信任度分数。与传统的如表达信任度和检查标记概率的方法相比，我们通过实验证明，信任度标记在下游路由和拒绝学习任务中显示出显著的改进。