LLM2D

摘要

基于价值的强化学习（RL）原则上可以学习针对各种多轮问题的有效策略，从游戏到对话再到机器人控制，包括通过从静态先前收集的数据集中进行离线RL。然而，尽管广泛使用策略梯度方法来训练大型语言模型以完成单轮任务（例如，问答），但在离策略或离线环境下用于多轮RL的基于价值的方法已被证明特别难以扩展到大型语言模型的设置。这种设置需要有效地利用预训练，扩展到具有数十亿参数的大型架构，以及在大型数据集上进行训练，所有这些都代表了当前基于价值的RL方法的主要挑战。在这项工作中，我们提出了一种新颖的离线RL算法来解决这些缺点，将Q学习转换为修改后的监督微调（SFT）问题，其中标记的概率直接转换为Q值。通过这种方式，我们获得了一种算法，该算法可以平滑地从预训练期间最大化数据似然性过渡到微调期间学习接近最优的Q函数。我们的算法具有强大的理论基础，享有与最先进的Q学习方法类似的性能界限，同时在实践中使用与SFT非常相似的目标。因此，我们的方法可以充分利用语言模型的预训练优势，无需在RL微调之前重新初始化任何权重，也无需初始化新的预测值或优势的头。根据经验，我们在各种任务上评估了我们在预训练的LLM和VLM上的方法，包括自然语言对话以及来自图像的机器人操作和导航。