LLM2D

摘要

随着强化学习 (RL) 解决的任务复杂性不断提高，奖励函数的定义也变得非常复杂。我们提出了一种 RL 方法，旨在通过直观的策略简化奖励塑造过程。首先，我们不是使用包含多个项的单个奖励函数，而是在约束多目标 RL (CMORL) 框架内定义多个奖励和成本函数。对于涉及顺序复杂动作的任务，我们将任务划分为不同的阶段，并为每个阶段定义多个奖励和成本。最后，我们介绍了一种实用的 CMORL 算法，该算法根据这些奖励最大化目标，同时满足由成本定义的约束。该方法已在仿真和真实世界环境中的各种杂技任务中得到成功验证。此外，与现有的 RL 和约束 RL 算法相比，该方法已证明能够成功执行任务。我们的代码可在 https://github.com/rllab-snu/Stage-Wise-CMORL 获取。