LLM2D

摘要

大型语言模型（LLMs）经常产生错误，包括事实上的不准确、偏差和推理失败，统称为“幻觉”。最近的研究表明，LLMs 的内部状态编码了关于其输出真实性的信息，并且该信息可用于检测错误。在本研究中，我们表明 LLMs 的内部表示编码了比以前认识到的关于真实性的更多信息。我们首先发现，真实性信息集中在特定标记中，利用此属性可显着提高错误检测性能。然而，我们表明，此类错误检测器无法跨数据集泛化，这意味着 - 与先前的说法相反 - 真实性编码并非普遍存在，而是多方面的。接下来，我们表明，内部表示也可用于预测模型可能产生的错误类型，从而促进定制缓解策略的开发。最后，我们揭示了 LLMs 的内部编码和外部行为之间的差异：它们可能编码了正确答案，但始终生成错误答案。总而言之，这些见解从模型的内部视角深化了我们对 LLM 错误的理解，这可以指导未来关于增强错误分析和缓解的研究。