LLM2D
探索大语言模型在对话格式上的事实方向泛化能力
Exploring the generalization of LLM truth directions on conversational formats
作者: Timour Ichmoukhamedov, David Martens
发布日期: 5/16/2025
arXiv ID: oai:arXiv.org:2505.09807v1

摘要

arXiv:2505.09807v1 交叉公告类型: 摘要:一些近期的工作认为,大型语言模型(LLMs)具有一个普遍的真实方向,在模型的激活空间中,真实的陈述与虚假的陈述是可以线性区分的。已经证明,仅在模型的单个隐藏状态下进行训练的线性探针已经在多个领域进行了泛化,并且甚至可以在LLM对话中用于谎言检测。在本文中,我们探讨了这种真实方向在各种对话格式之间的泛化能力。我们发现,对于以谎言结束的简短对话,泛化效果良好,但对于输入提示中谎言出现较早的较长对话格式,泛化效果较差。我们提出了一种解决方案,通过在每个对话结尾添加一个固定的关键词汇,显著提高了这种类型的泛化能力。我们的结果显示了向新环境下可靠LLM谎言检测器泛化的挑战。