LLM2D
大型语言模型(LLM)是否“知道”自身何时遵循指令?
Do LLMs "know" internally when they follow instructions?
作者: Juyeon Heo, Christina Heinze-Deml, Oussama Elachqar, Shirley Ren, Udhay Nallasamy, Andy Miller, Kwan Ho Ryan Chan, Jaya Narain
发布日期: 10/23/2024
arXiv ID: oai:arXiv.org:2410.14516v2

摘要

大型语言模型 (LLM) 的指令遵循能力对于构建人工智能代理至关重要,因为这些模型必须严格遵守用户提供的约束和指南。然而,LLM 往往无法遵循甚至简单明了的指令。为了改进指令遵循行为并防止不良输出,需要更深入地理解 LLM 内部状态如何与其结果相关联。我们对 LLM 内部状态的分析揭示了输入嵌入空间中与成功遵循指令相关的一个维度。我们证明,沿此维度修改表示可以提高指令遵循的成功率,而不会影响响应质量,这与随机更改相比有所改进。进一步的研究表明,该维度与提示的措辞更密切相关,而不是与任务或指令的固有难度相关。这一发现也解释了为什么 LLM 有时无法遵循清晰的指令,以及为什么提示工程通常有效,即使内容基本保持不变。这项工作深入了解了 LLM 指令遵循的内部机制,为构建可靠的 LLM 代理铺平了道路。