摘要
arXiv:2412.10778v2 宣告类型: replace-cross
摘要:当前先进的策略学习方法在提供充分信息的情况下,已经展示了能够开发出专家级策略的能力。然而,它们的需求,包括任务特定的奖励、动作标签的专家轨迹以及大量的环境交互,可能在许多场景中是昂贵的或根本不可用的。相反,人类在没有其他监督的情况下,仅通过模仿易于访问的网络视频,就能在几次尝试和错误中学得技能。在本文中,我们尝试通过一种新颖框架 Unsupervised Policy from Ensemble Self-supervised Labeled Videos (UPESV),让机器复制这种高效的观看和学习过程。UPESV 是一种无需奖励和任何其他专家监督即可从动作无关视频中高效学习策略的方法。UPESV 训练一个视频标签模型,通过几个有机结合的自监督任务推断专家视频中的专家动作。每个任务都履行其职责,它们共同使模型能够充分利用动作无关视频和无奖赏交互,以实现稳健的动力学理解和高级动作预测。同时,UPESV 从标记的专家视频中克隆一个策略,反过来收集环境交互以供自监督任务使用。在一次样本高效、无监督且迭代的训练过程中,UPESV 基于一个稳健的视频标签模型获得了先进的策略。在十六个具有挑战性的程序生成环境中进行的广泛实验表明,在除了视频之外没有任何其他监督的情况下,所提出的 UPESV 实现了最先进的交互限制策略学习性能(在 12/16 任务上优于五个当前先进的基线)。