LLM2D

摘要

arXiv:2503.19037v1 宣布类型: cross 摘要：尽管强化学习的随策略方法具有极端的样本效率低下，但已成为现实世界应用中的基本工具。随着基于GPU的模拟技术的最新进展，为强化学习训练收集大量数据的能力已呈指数级增长。然而，研究表明，当前的随策略方法，如PPO，在达到一定规模后无法充分利用并行环境的优势，导致性能饱和。相比之下，进化算法（EAs）通过随机化有效地增加多样性，使它们成为强化学习的自然补充。然而，现有的EvoRL方法因极端的样本效率低下而难以广泛采用。为了解决这些挑战，我们引入了一种新的策略梯度算法——进化策略优化（EPO），该算法结合了进化算法和策略梯度的长处。我们展示了EPO在各种复杂环境中的性能显著提升，并且在并行化模拟中展现了更优的可扩展性。