摘要
强化学习 (RL) 已成为微调大型语言模型 (LLM) 以适应特定任务的关键技术。然而,现有的 RL 微调方法主要依赖于 PPO 及其变体。尽管这些算法在一般的 RL 设置中是有效的,但它们在应用于 LLMs 的微调时,往往表现出次优性能,并容易出现分布崩溃问题。本文提出了 CORY,将 LLMs 的 RL 微调扩展到一个顺序协作多智能体强化学习框架,以利用多智能体系统固有的协同进化和涌现能力。在 CORY 中,待微调的 LLM 最初被复制成两个自主代理:先锋和观察者。先锋根据查询生成响应,而观察者则使用查询和先锋的响应生成响应。这两个代理一起接受训练。在训练过程中,代理定期交换角色,促进它们之间的合作和协同进化。实验通过在 IMDB 评论和 GSM8K 数据集上分别使用主观和客观奖励函数,对 GPT-2 和 Llama-2 进行微调,评估了 CORY 的性能。结果表明,CORY 在策略最优性、抗分布崩溃能力和训练鲁棒性方面优于 PPO,从而突出了其作为一种优越方法在现实世界应用中改进 LLMs 的潜力。