LLM2D

摘要

大型语言模型 (LLMs) 和视觉语言模型 (VLMs) 的进步促使最近的研究引入了视觉-语言-动作 (VLA) 模型，作为机器人操控任务的集成解决方案。这些模型以摄像头图像和自然语言任务指令作为输入，直接生成机器人执行指定任务的控制动作，极大地提高了决策能力和与人类用户的交互能力。然而，VLA 模型的数据驱动特性，加上其缺乏可解释性，使得确保其有效性和鲁棒性成为一项具有挑战性的任务。这突出了对可靠测试和评估平台的需求。为此，在本工作中，我们提出了 LADEV，一个专门为评估 VLA 模型而设计的全面高效的平台。我们首先提出了一种语言驱动方法，该方法可以从自然语言输入中自动生成模拟环境，从而减少了对人工调整的需求，并显著提高了测试效率。然后，为了进一步评估语言输入对 VLA 模型的影响，我们实施了一种释义机制，该机制可以生成多种自然语言任务指令进行测试。最后，为了加快评估过程，我们引入了一种批处理方式，用于对 VLA 模型进行大规模测试。使用 LADEV，我们对几种最先进的 VLA 模型进行了实验，证明了其作为评估这些模型的工具的有效性。我们的结果表明，LADEV 不仅提高了测试效率，而且为评估 VLA 模型建立了坚实的基础，为开发更智能、更先进的机器人系统铺平了道路。