摘要
arXiv:2505.08200v1 类型: cross
摘要: 大型语言模型(LLMs)倾向于产生幻觉,即偶尔生成虚假或虚构的信息。这提出了一个主要挑战,因为幻觉往往显得非常可信,而用户通常缺乏检测它们的工具。不确定性量化(UQ)提供了一种评估模型输出可靠性的框架,有助于识别潜在的幻觉。在本文中,我们引入了预训练的不确定性量化头部:监督辅助模块,能够显著增强LLMs捕捉不确定性的能力,相较于未监督的不确定性量化方法。这些头部表现出色的原因在于其设计中的强大Transformer架构以及从LLM注意力图中获得的有用特征。实验评估表明,这些头部具有高度鲁棒性,并在领域内和领域外提示下的断言级幻觉检测中达到了最先进的性能。此外,这些模块对它们未明确训练的语言具有很强的泛化能力。我们为流行的LLM系列(包括Mistral、Llama和Gemma 2)预先训练了一组不确定性量化头部。我们公开发布了代码和预训练的头部。