LLM2D

摘要

arXiv:2410.14516v5 通知类型: 替换摘要：指令跟随对于构建基于大规模语言模型（LLM）的AI代理至关重要，因为这些模型必须严格遵守用户提供的约束和指南。然而，LLM在遵循即使是简单而清晰的指令时经常出现错误。为了提高指令跟随的行为并防止不 desirable 的输出，需要更深入地理解LLM的内部状态与其输出结果之间的关系。在这项工作中，我们研究了LLM在其表示中是否编码了与指令跟随成功相关的信息——我们称之为内部知道这一特性。我们的分析识别出输入嵌入空间中的一个方向，称为指令跟随维度，该方向可以预测响应是否会遵守给定的指令。我们发现，这个维度在未见过的任务上表现良好，但在未见过的指令类型上表现不佳。我们证明，在此维度上修改表示可以提高指令跟随的成功率，且不会牺牲响应的质量。进一步的研究发现，这一维度与提示的表述更密切相关，而不是任务或指令的固有难度。本工作提供了对于LLM指令跟随内部运作机制的见解，为可靠LLM代理的开发铺平了道路。