LLM2D

摘要

arXiv:2502.08903v1 交叉公告类型摘要：视觉-语言模型（VLMs）在场景理解和感知任务中取得了显著的成功，使机器人能够在动态环境中适应性地计划和执行动作。然而，大多数多模态大语言模型缺乏稳健的3D场景定位能力，限制了它们在精细机器人操作中的有效性。此外，低识别准确性、低效性、较差的迁移性和可靠性等挑战妨碍了它们在精密任务中的应用。为了解决这些限制，我们提出了一种新型框架，该框架通过将2D图像映射到点云中来集成一个2D提示合成模块，并结合一个小语言模型（SLM）来监督VLM输出。2D提示合成模块使VLMs能够自主提取精确的3D空间信息，无需人工干预，显著增强了3D场景理解。同时，SLM监督VLM输出，减轻幻觉现象，确保可靠的可执行机器人控制代码生成。该框架消除了在新环境中重新训练的需求，从而提高了成本效率和操作鲁棒性。实验结果表明，所提出的框架实现了96.0%的任务成功率（TSR），超过了其他方法。消融研究证明了2D提示合成模块和输出监督模块的关键作用（当这两个模块被移除时，TSR下降了67%）。这些发现验证了该框架在提高3D识别、任务规划和机器人任务执行方面的有效性。