LLM2D
LADEV:面向机器人操控的视觉-语言-动作模型的语言驱动测试与评估平台
LADEV: A Language-Driven Testing and Evaluation Platform for Vision-Language-Action Models in Robotic Manipulation
作者: Zhijie Wang, Zhehua Zhou, Jiayang Song, Yuheng Huang, Zhan Shu, Lei Ma
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2410.05191v1

摘要

大型语言模型 (LLMs) 和视觉语言模型 (VLMs) 的进步促使最近的研究引入了视觉-语言-动作 (VLA) 模型,作为机器人操控任务的集成解决方案。这些模型以摄像头图像和自然语言任务指令作为输入,直接生成机器人执行指定任务的控制动作,极大地提高了决策能力和与人类用户的交互能力。然而,VLA 模型的数据驱动特性,加上其缺乏可解释性,使得确保其有效性和鲁棒性成为一项具有挑战性的任务。这突出了对可靠测试和评估平台的需求。为此,在本工作中,我们提出了 LADEV,一个专门为评估 VLA 模型而设计的全面高效的平台。我们首先提出了一种语言驱动方法,该方法可以从自然语言输入中自动生成模拟环境,从而减少了对人工调整的需求,并显著提高了测试效率。然后,为了进一步评估语言输入对 VLA 模型的影响,我们实施了一种释义机制,该机制可以生成多种自然语言任务指令进行测试。最后,为了加快评估过程,我们引入了一种批处理方式,用于对 VLA 模型进行大规模测试。使用 LADEV,我们对几种最先进的 VLA 模型进行了实验,证明了其作为评估这些模型的工具的有效性。我们的结果表明,LADEV 不仅提高了测试效率,而且为评估 VLA 模型建立了坚实的基础,为开发更智能、更先进的机器人系统铺平了道路。