LLM2D

摘要

arXiv:2505.04961v1 类别: cross 摘要: 多目标优化问题需要同时优化多个目标，在众多应用中普遍存在。现有的多目标优化方法通常依赖于手动调整的聚合函数来形成联合优化目标。这类手动调整的方法的性能很大程度上依赖于仔细选择权重，这是一个耗时且繁琐的过程。这些限制在基于强化学习的运动跟踪中也是如此，在物理模拟的字符运动跟踪中，通常会使用复杂设计的奖励函数来达到高保真度的结果。这种解决方案不仅需要领域专业知识和大量的手动调整，还限制了所得到的奖励函数在不同技能间的适用性。为了解决这个问题，我们提出了一种新的对抗性多目标优化技术，该技术广泛适用于多种多目标优化问题，包括运动跟踪。提出的对抗性微分判别器仅接收一个正样本，但仍有效指导优化过程。我们展示了该技术可以使角色准确复制各种杂技和敏捷行为，无需依赖手动调整的奖励函数，其质量可与当前最先进的运动跟踪方法相媲美。结果可通过https://youtu.be/rz8BYCE9E2w最佳可视化。