摘要
连续控制深度强化学习 (RL) 方法因估计偏差而导致次优策略。本文介绍了 RL 的创新方法,重点关注解决和利用深度双 Q 学习中 Actor-Critic 方法连续控制任务中的估计偏差。我们设计了一种偏差利用 (BE) 机制,在 RL 智能体训练期间动态选择最有利的估计偏差。大多数最先进的深度 RL 算法都可以配备 BE 机制,而不会影响性能或计算复杂度。我们在各种连续控制任务中的大量实验证明了我们方法的有效性。我们表明,配备该方法的 RL 算法可以匹配或超越其对应算法,尤其是在估计偏差显着影响学习的环境中。结果强调了在 RL 中偏差利用对提高策略学习的重要性。