LLM2D
基于3D场景的视觉-语言机器人任务规划框架:自动提示合成与监督推理
3D-Grounded Vision-Language Framework for Robotic Task Planning: Automated Prompt Synthesis and Supervised Reasoning
作者: Guoqin Tang, Qingxuan Jia, Zeyuan Huang, Gang Chen, Ning Ji, Zhipeng Yao
发布日期: 2/14/2025
arXiv ID: oai:arXiv.org:2502.08903v1

摘要

arXiv:2502.08903v1 交叉公告类型 摘要:视觉-语言模型(VLMs)在场景理解和感知任务中取得了显著的成功,使机器人能够在动态环境中适应性地计划和执行动作。然而,大多数多模态大语言模型缺乏稳健的3D场景定位能力,限制了它们在精细机器人操作中的有效性。此外,低识别准确性、低效性、较差的迁移性和可靠性等挑战妨碍了它们在精密任务中的应用。为了解决这些限制,我们提出了一种新型框架,该框架通过将2D图像映射到点云中来集成一个2D提示合成模块,并结合一个小语言模型(SLM)来监督VLM输出。2D提示合成模块使VLMs能够自主提取精确的3D空间信息,无需人工干预,显著增强了3D场景理解。同时,SLM监督VLM输出,减轻幻觉现象,确保可靠的可执行机器人控制代码生成。该框架消除了在新环境中重新训练的需求,从而提高了成本效率和操作鲁棒性。实验结果表明,所提出的框架实现了96.0%的任务成功率(TSR),超过了其他方法。消融研究证明了2D提示合成模块和输出监督模块的关键作用(当这两个模块被移除时,TSR下降了67%)。这些发现验证了该框架在提高3D识别、任务规划和机器人任务执行方面的有效性。