LLM2D
进化策略优化
Evolutionary Policy Optimization
作者: Jianren Wang, Yifan Su, Abhinav Gupta, Deepak Pathak
发布日期: 3/26/2025
arXiv ID: oai:arXiv.org:2503.19037v1

摘要

arXiv:2503.19037v1 宣布类型: cross 摘要:尽管强化学习的随策略方法具有极端的样本效率低下,但已成为现实世界应用中的基本工具。随着基于GPU的模拟技术的最新进展,为强化学习训练收集大量数据的能力已呈指数级增长。然而,研究表明,当前的随策略方法,如PPO,在达到一定规模后无法充分利用并行环境的优势,导致性能饱和。相比之下,进化算法(EAs)通过随机化有效地增加多样性,使它们成为强化学习的自然补充。然而,现有的EvoRL方法因极端的样本效率低下而难以广泛采用。为了解决这些挑战,我们引入了一种新的策略梯度算法——进化策略优化(EPO),该算法结合了进化算法和策略梯度的长处。我们展示了EPO在各种复杂环境中的性能显著提升,并且在并行化模拟中展现了更优的可扩展性。