摘要
随着强化学习 (RL) 解决的任务复杂性不断提高,奖励函数的定义也变得非常复杂。我们提出了一种 RL 方法,旨在通过直观的策略简化奖励塑造过程。首先,我们不是使用包含多个项的单个奖励函数,而是在约束多目标 RL (CMORL) 框架内定义多个奖励和成本函数。对于涉及顺序复杂动作的任务,我们将任务划分为不同的阶段,并为每个阶段定义多个奖励和成本。最后,我们介绍了一种实用的 CMORL 算法,该算法根据这些奖励最大化目标,同时满足由成本定义的约束。该方法已在仿真和真实世界环境中的各种杂技任务中得到成功验证。此外,与现有的 RL 和约束 RL 算法相比,该方法已证明能够成功执行任务。我们的代码可在 https://github.com/rllab-snu/Stage-Wise-CMORL 获取。