摘要
arXiv:2502.09886v1 类别: cross
摘要: 模拟为廉价扩展通用政策的训练数据提供了有前景的方法。为了可扩展地生成来自多样和现实任务的数据,现有的算法要么依赖于可能产生不适用于机器人学任务的虚假任务的大语言模型(LLMs);要么依赖于数字双胞胎,这需要仔细的现实到模拟对齐并且难以扩展。为了解决这些挑战,我们提出了Video2Policy,这是一种新颖的框架,利用互联网RGB视频根据日常人类行为重建任务。我们的方法包括两个阶段:(1) 基于视频在模拟中生成任务;和 (2) 利用上下文中的LLM生成奖励函数进行迭代的强化学习。我们通过从Something-Something-v2 (SSv2) 数据集重建超过100个视频来展示Video2Policy的有效性,这些视频展示了9个不同任务中多样的和复杂的个人行为。我们的方法可以在这些任务上成功训练RL政策,包括复杂的挑战性任务如投掷。最后,我们展示了生成的模拟数据可以用于扩展训练通用政策,并可以通过Real2Sim2Real方式将其转移到真实机器人上。