摘要
我们提出了一种名为PROGRESSOR的新型框架,该框架从视频中学习与任务无关的奖励函数,从而能够通过目标条件强化学习 (RL) 进行策略训练,无需人工监督。此奖励的基础是一个关于任务进展分布的估计,该分布是当前、初始和目标观测的函数,并以自监督的方式学习。至关重要的是,PROGRESSOR 通过反推分布外观测的预测来对抗性地改进在线RL训练期间的奖励,以减轻非专家观测中固有的分布偏移。利用这种进展预测作为密集奖励以及对抗性反推,我们证明了PROGRESSOR 能够使机器人学习复杂行为,而无需任何外部监督。PROGRESSOR 在来自 EPIC-KITCHENS 的大规模自我中心人类视频上进行预训练,无需在域内特定任务数据上进行微调即可泛化到具有噪声演示的真实机器人离线 RL,其性能优于为机器人学习提供密集视觉奖励的当代方法。我们的研究结果突出了 PROGRESSOR 在直接动作标签和特定任务奖励难以获得的可扩展机器人应用中的潜力。