摘要
arXiv:2410.14516v5 通知类型: 替换
摘要:指令跟随对于构建基于大规模语言模型(LLM)的AI代理至关重要,因为这些模型必须严格遵守用户提供的约束和指南。然而,LLM在遵循即使是简单而清晰的指令时经常出现错误。为了提高指令跟随的行为并防止不 desirable 的输出,需要更深入地理解LLM的内部状态与其输出结果之间的关系。在这项工作中,我们研究了LLM在其表示中是否编码了与指令跟随成功相关的信息——我们称之为内部知道这一特性。我们的分析识别出输入嵌入空间中的一个方向,称为指令跟随维度,该方向可以预测响应是否会遵守给定的指令。我们发现,这个维度在未见过的任务上表现良好,但在未见过的指令类型上表现不佳。我们证明,在此维度上修改表示可以提高指令跟随的成功率,且不会牺牲响应的质量。进一步的研究发现,这一维度与提示的表述更密切相关,而不是任务或指令的固有难度。本工作提供了对于LLM指令跟随内部运作机制的见解,为可靠LLM代理的开发铺平了道路。