LLM2D

摘要

近年来，强化学习 (RL) 已广泛应用于许多具有挑战性的任务。然而，为了获得良好的性能，它需要访问一个良好的奖励函数，而该函数通常是稀疏的或人工设计的，存在错误的可能性。引入人类先验知识通常被视为解决上述问题的可能解决方案，例如模仿学习、偏好学习和逆强化学习。从反馈中学习是另一个框架，它使 RL 代理能够从二元评价信号中学习，这些信号描述了教师对代理行为的（正面或负面）评价。然而，这些方法通常假设评价性教师反馈是完美的，这是一个限制性假设。在实践中，这种反馈可能由于教师专业知识有限或其他加剧因素（如认知负荷、可用性、分心等）而变得嘈杂。在这项工作中，我们提出了 CANDERE-COACH 算法，该算法能够从非最优教师的嘈杂反馈中学习。我们提出了一种噪声过滤机制来对在线反馈数据进行降噪，从而使 RL 代理能够成功地学习，即使高达 40% 的教师反馈是错误的。在三个常见领域进行的实验证明了所提出方法的有效性。