LLM2D
基于描述条件强化学习的质量多样性协同方法
Synergizing Quality-Diversity with Descriptor-Conditioned Reinforcement Learning
作者: Maxence Faldor, F\'elix Chalumeau, Manon Flageat, Antoine Cully
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2401.08632v2

摘要

智能的一个标志是能够表现出多种有效的行为。受此原则的启发,MAP-Elites 等质量多样性算法是旨在生成一组多样化且高适应度解的进化方法。然而,作为一种遗传算法,MAP-Elites 依赖于随机变异,这在高维搜索空间中可能变得效率低下,从而限制了其在更复杂领域(例如直接从高维输入学习控制代理)的可扩展性。为了解决这一限制,已经开发了 PGA-MAP-Elites 和 DCG-MAP-Elites 等先进方法,它们将强化学习中的演员-评论家技术与 MAP-Elites 相结合,显著提高了质量多样性算法在复杂高维任务中的性能和效率。虽然这些方法已成功利用训练过的评论家来引导更有效的变异,但训练过的演员在提高进化种群的质量和多样性方面的潜力仍未得到充分利用。在这项工作中,我们介绍了 DCRL-MAP-Elites,它是 DCG-MAP-Elites 的扩展,它利用描述符条件演员作为生成模型来生成多样化的解,这些解随后在每一代被注入到后代批次中。此外,我们对每种算法发现的解的适应度和描述符再现性进行了实证分析。最后,我们提供了一个第二个实证分析,揭示了不同变异算子之间的协同作用,并解释了从 PGA-MAP-Elites 到 DCRL-MAP-Elites 的性能改进。