LLM2D

摘要

arXiv:2502.13475v1 Announce Type: cross 摘要：近年来，人们常用大型语言模型作为聊天助手进行训练，但在用户与聊天助手的对话中，聊天助手需要与用户进行多轮交互。然而，多轮对话存在一些问题：聊天助手的回答容易出错，不能帮助用户实现目标；聊天助手难以根据不同实际需求为同一命令或请求生成具有不同处理过程的响应；聊天助手需要使用工具，但当前的方法并不优雅且效率低下，支持的工具调用数量有限。这些问题的主要原因是大型语言模型不具备人类的思考能力，缺乏推理能力和规划能力，也无法执行计划。为了解决这些问题，我们提出了一种基于内置链式思考的思考方法：在多轮对话中，对于每个用户提示，大型语言模型根据聊天历史、思考环境、行动调用、记忆和知识进行思考，进行详细的推理、规划和根据计划采取行动。我们还探索了通过该思考方法提升大型语言模型思考能力的方法：根据该思考方法收集训练数据，并通过监督学习对大型语言模型进行微调；训练一致性奖励模型，并作为奖励函数使用，通过强化学习对大型语言模型进行微调，增强后的大型语言模型根据这种方式进行输出。我们的实验结果表明，大型语言模型的推理能力和规划能力得到了提升，并解决了多轮对话中的问题。