LLM2D

摘要

具身人工智能（Embodied AI）代表着人工智能研究中的一种范式，在这种范式中，人工代理位于物理或虚拟环境中并与之交互。尽管具身人工智能最近取得了进展，但学习能够处理软体物体（如粘土、水和土壤）上的大变形和拓扑变化的通用操作技能仍然非常具有挑战性。在这项工作中，我们提出了一种有效的策略，即 GP2E 行为克隆策略，它可以引导代理从软体任务中学习通用操作技能，包括倾倒、填充、悬挂、挖掘、捏取和书写。具体来说，我们从三个见解构建了我们的策略：（1）从点云数据中提取复杂的语义特征，并将它们无缝集成到机器人的末端执行器框架中；（2）通过结合我们的引导自注意力模块，捕获长时程任务中的长距离交互；（3）通过引入我们的两阶段微调策略，缓解过拟合问题并促进模型收敛到更高的精度水平。通过大量的实验，我们证明了我们的方法的有效性，在 CVPR 2023 第四届具身人工智能研讨会上的 ManiSkill2 挑战赛的软体赛道中获得了第一名。我们的发现突出了我们的方法在提高具身人工智能模型的泛化能力方面的潜力，并为其在现实世界场景中的实际应用铺平了道路。