LLM2D
大规模并行化通过行为变异扩展策略梯度的质量多样性
Scaling Policy Gradient Quality-Diversity with Massive Parallelization via Behavioral Variations
作者: Konstantinos Mitsides, Maxence Faldor, Antoine Cully
发布日期: 2/3/2025
arXiv ID: oai:arXiv.org:2501.18723v1

摘要

arXiv:2501.18723v1 交叉公告类型 摘要:质量多样性优化是一类旨在生成多样化和高性能解决方案的进化算法。MAP-Elites (ME) 是其中的一个著名例子,被有效应用于进化机器人学等领域。然而,ME 对遗传算法中的随机突变依赖性限制了其进化高维解决方案的能力。为克服这个问题,提出了使用基于梯度的操作符,如策略梯度或自然进化策略的方法。虽然这些方法在神经进化中成功地扩大了 ME 的规模,但它们往往存在训练速度慢的问题,或者在大规模并行化时由于高计算需求或依赖于中心化演员-评论家训练而导致扩展困难。在本文中,我们提出了一种基于 ME 的快速、样本高效算法,该算法能够通过大规模并行化显著降低运行时间,而不牺牲性能。我们的方法 ASCII-ME 与现有的基于策略梯度的质量多样性方法不同,不依赖于中心化演员-评论家训练。它根据时间步长性能指标执行行为变化,并使用策略梯度将这些变化映射到解决方案。我们的实验表明,ASCII-ME 在单个 GPU 上可以少于 250 秒生成多样化的高性能深度神经网络策略。此外,它在平均情况下比当前最好的算法快五倍,同时仍保持了竞争性的样本效率。