LLM2D

摘要

arXiv:2504.08057v1 声明类型：交叉摘要：质量多样性算法通过优先发现多样且高性能的解决方案，而非单一最优结果，改变了优化的方式。然而，传统的质量多样性方法，如MAP-Elites，高度依赖于预定义的行为描述符和任务的全面先验知识，以定义行为空间网格，这限制了它们的灵活性和适用性。在本工作中，我们提出了向量量化精英（VQ-Elites）算法，这是一种新颖的质量多样性算法，能够自主构建结构化的行为空间网格，无需依赖特定任务的先验知识。VQ-Elites的核心在于将向量量化变分自动编码器的集成，这使得能够动态学习行为描述符并生成结构化的而非无结构的行为空间网格，这是现有无监督质量多样性方法的一个重要进步。这种设计使VQ-Elites成为一种灵活、稳健且任务无关的优化框架。为进一步增强无监督质量多样性的算法性能，我们引入了两个关键组件：行为空间边界和合作机制，这些机制显著改善了收敛性和性能。我们通过机器人手臂姿态到达和移动机器人空间覆盖任务验证了VQ-Elites。实验结果展示了其高效生成多样且高质量解决方案的能力，突显了其适应性、可扩展性和对超参数的鲁棒性，并表明其有能力将质量多样性优化扩展到复杂且此前难以触及的领域。