LLM2D

摘要

arXiv:2505.04999v1 宣告类型: cross 摘要：使用模仿学习学习机器人策略需要收集大量昂贵的动作标记专家演示，这从根本上限制了训练数据的规模。解决这一瓶颈的一个有希望的方法是利用大量未标记的观察数据（例如，来自视频演示的数据），以无监督的方式学习潜在的动作标签。然而，我们发现现有方法在应用于需要精细运动的复杂机器人任务时存在困难。我们设计了连续潜在动作模型（CLAM），该模型包含两个我们认为对于从未标记观察数据中学习解决复杂连续控制任务所必要的关键成分：(a) 使用连续潜在动作标签而不是离散表示，(b) 联合训练一个动作解码器，以确保潜在的动作空间可以相对较少的标记示例为基础，容易地与真实动作对应。重要的是，标签示例可以来自非最优游戏数据，从而使 CLAM 能够在不访问任何动作标记专家数据的情况下学习表现良好的策略。我们在 DMControl（运动）和 MetaWorld（ manip 操作）的连续控制基准测试上以及真实 WidowX 机器人臂上展示了 CLAM 显著优于先前最先进的方法，令人惊讶地在任务成功率上提高了 2-3 倍。相关视频和代码可以在 clamrobot.github.io 找到。