LLM2D

摘要

强化学习 (RL) 已成为微调大型语言模型 (LLM) 以适应特定任务的关键技术。然而，现有的 RL 微调方法主要依赖于 PPO 及其变体。尽管这些算法在一般的 RL 设置中是有效的，但它们在应用于 LLMs 的微调时，往往表现出次优性能，并容易出现分布崩溃问题。本文提出了 CORY，将 LLMs 的 RL 微调扩展到一个顺序协作多智能体强化学习框架，以利用多智能体系统固有的协同进化和涌现能力。在 CORY 中，待微调的 LLM 最初被复制成两个自主代理：先锋和观察者。先锋根据查询生成响应，而观察者则使用查询和先锋的响应生成响应。这两个代理一起接受训练。在训练过程中，代理定期交换角色，促进它们之间的合作和协同进化。实验通过在 IMDB 评论和 GSM8K 数据集上分别使用主观和客观奖励函数，对 GPT-2 和 Llama-2 进行微调，评估了 CORY 的性能。结果表明，CORY 在策略最优性、抗分布崩溃能力和训练鲁棒性方面优于 PPO，从而突出了其作为一种优越方法在现实世界应用中改进 LLMs 的潜力。