摘要
大型语言模型(LLMs)经常产生错误,包括事实上的不准确、偏差和推理失败,统称为“幻觉”。最近的研究表明,LLMs 的内部状态编码了关于其输出真实性的信息,并且该信息可用于检测错误。在本研究中,我们表明 LLMs 的内部表示编码了比以前认识到的关于真实性的更多信息。我们首先发现,真实性信息集中在特定标记中,利用此属性可显着提高错误检测性能。然而,我们表明,此类错误检测器无法跨数据集泛化,这意味着 - 与先前的说法相反 - 真实性编码并非普遍存在,而是多方面的。接下来,我们表明,内部表示也可用于预测模型可能产生的错误类型,从而促进定制缓解策略的开发。最后,我们揭示了 LLMs 的内部编码和外部行为之间的差异:它们可能编码了正确答案,但始终生成错误答案。总而言之,这些见解从模型的内部视角深化了我们对 LLM 错误的理解,这可以指导未来关于增强错误分析和缓解的研究。