摘要
arXiv:2411.14257v2 声明类型:替换交叉
摘要:大型语言模型中的幻觉是一个普遍存在的问题,然而,模型是否会幻觉的机制尚不明确,限制了我们解决这一问题的能力。通过使用稀疏自编码器作为可解释性工具,我们发现这些机制中的关键部分是实体识别,模型会检测其能否回忆相关事实的实体。稀疏自编码器揭示了表示空间中的有意义方向,这些方向可以检测模型是否识别了一个实体,例如,检测模型是否不知道某个运动员或电影。这表明模型可以拥有自我认知:关于其自身能力的内部表示。这些方向是因果相关的:能够引导模型拒绝回答关于已知实体的问题,或者在本应拒绝回答的情况下,对未知实体的属性进行幻觉。尽管稀疏自编码器是基于基模型训练的,但这些方向对聊天模型的拒绝行为有因果影响,这表明对话微调已经重新利用了这种现有机制。此外,我们初步探讨了这些方向在模型中的机制作用,发现它们破坏了通常将实体属性移动到最终标记的下游头部的注意力。