摘要
近年来,强化学习 (RL) 已广泛应用于许多具有挑战性的任务。然而,为了获得良好的性能,它需要访问一个良好的奖励函数,而该函数通常是稀疏的或人工设计的,存在错误的可能性。引入人类先验知识通常被视为解决上述问题的可能解决方案,例如模仿学习、偏好学习和逆强化学习。从反馈中学习是另一个框架,它使 RL 代理能够从二元评价信号中学习,这些信号描述了教师对代理行为的(正面或负面)评价。然而,这些方法通常假设评价性教师反馈是完美的,这是一个限制性假设。在实践中,这种反馈可能由于教师专业知识有限或其他加剧因素(如认知负荷、可用性、分心等)而变得嘈杂。在这项工作中,我们提出了 CANDERE-COACH 算法,该算法能够从非最优教师的嘈杂反馈中学习。我们提出了一种噪声过滤机制来对在线反馈数据进行降噪,从而使 RL 代理能够成功地学习,即使高达 40% 的教师反馈是错误的。在三个常见领域进行的实验证明了所提出方法的有效性。