LLM2D
LLMs在遵循指令时是否“知道自己”在做什么?
Do LLMs "know" internally when they follow instructions?
作者: Juyeon Heo, Christina Heinze-Deml, Oussama Elachqar, Kwan Ho Ryan Chan, Shirley Ren, Udhay Nallasamy, Andy Miller, Jaya Narain
发布日期: 3/31/2025
arXiv ID: oai:arXiv.org:2410.14516v5

摘要

arXiv:2410.14516v5 通知类型: 替换 摘要:指令跟随对于构建基于大规模语言模型(LLM)的AI代理至关重要,因为这些模型必须严格遵守用户提供的约束和指南。然而,LLM在遵循即使是简单而清晰的指令时经常出现错误。为了提高指令跟随的行为并防止不 desirable 的输出,需要更深入地理解LLM的内部状态与其输出结果之间的关系。在这项工作中,我们研究了LLM在其表示中是否编码了与指令跟随成功相关的信息——我们称之为内部知道这一特性。我们的分析识别出输入嵌入空间中的一个方向,称为指令跟随维度,该方向可以预测响应是否会遵守给定的指令。我们发现,这个维度在未见过的任务上表现良好,但在未见过的指令类型上表现不佳。我们证明,在此维度上修改表示可以提高指令跟随的成功率,且不会牺牲响应的质量。进一步的研究发现,这一维度与提示的表述更密切相关,而不是任务或指令的固有难度。本工作提供了对于LLM指令跟随内部运作机制的见解,为可靠LLM代理的开发铺平了道路。