LLM2D

摘要

arXiv:2502.02538v1 宣告类型: cross 摘要: 我们介绍了流Q学习(FQL),这是一项简单的高性能离线强化学习(Reinforcement Learning, RL)方法,利用一个表现力丰富的流匹配策略来建模数据中任意复杂的动作分布。使用RL训练一个流策略是一个棘手的问题,因为动作生成过程具有迭代性。为了解决这一挑战,我们通过使用RL训练一个表现力丰富的一步策略,而不是直接引导一个迭代的流策略以最大化价值。这样,我们可以完全避免不稳定的递归反向传播,在测试时删除代价高昂的迭代动作生成,同时仍然保持大部分的表现力。实验结果显示,在离线RL和离线到在线RL中,FQL在OGBench和D4RL任务的73个具有挑战性的状态和像素基任务中表现出色。项目页面: https://seohong.me/projects/fql/