LLM2D

摘要

arXiv:2504.20520v1 交叉公告类型：cross 摘要：从少量演示学习以开发对机器人初始位置和物体姿态变化具有鲁棒性的策略，在机器人领域具有重要的实际意义。与常常难以从有限样本中泛化的imitation learning相比，reinforcement learning (RL) 可以自主探索以获得稳健的行为。通过直接与真实世界交互来训练RL代理往往 impractical 和不安全，而构建模拟环境则需要大量的手工努力，如设计场景和定制任务特定的奖励函数。为了解决这些挑战，我们提出了一种集成的 real-to-sim-to-real 管道，该管道根据专家演示从图像中识别场景对象，并从现有的库中检索它们对应的3D模型来构建模拟环境。我们引入了一种基于投影的奖励模型用于RL策略训练，该模型由使用人类引导的物体投影关系作为提示的视觉-语言模型（VLM）进行监督，并进一步使用专家演示对策略进行微调。总体而言，我们的工作重点在于构建模拟环境和基于RL的策略训练，最终能够在实际场景中部署可靠的人形控制策略。