摘要
arXiv:2502.13490v1 类别:交叉学科
摘要:大型语言模型(LLM)系统遭受模型生成有效且事实性内容的不稳定能力的影响,导致产生了幻觉生成问题。当前的幻觉检测方法高度依赖于模型外部的信息来源,如RAG以协助检测,从而带来了额外的严重延迟。近期,在推理过程中LLM内部状态的使用在大量研究工作中得到了广泛应用,例如提示注入检测等。考虑到LLM内部状态的可解释性以及它们不需要外部信息来源的事实,我们引入了这些状态来进行LLM的幻觉检测。在本文中,我们系统地分析了推理过程中原内部状态的不同揭示特征,并全面评估了它们在幻觉检测中的能力。具体而言,我们将大型语言模型的前向过程分为三个阶段:理解、查询、生成,并从这些阶段中提取内部状态。通过对这些状态的分析,我们对幻觉内容是如何生成以及模型内部状态发生了什么提供了深入的理解。然后,我们将这些内部状态引入到幻觉检测中,并进行全面的实验来讨论其优缺点。