LLM2D

摘要

arXiv:2504.19854v1 Announce Type: cross 摘要：现有的视觉-语言-行动（VLA）模型在零样本场景中展示了令人鼓舞的性能，展示了出色的任务执行和推理能力。然而，视觉编码的局限性带来了重大挑战，这在对象抓取等任务中会导致失败。此外，这些模型通常由于其庞大的规模而遭受计算开销过高的问题，参数量往往超过70亿。虽然这些模型在推理和任务规划方面表现出色，但它们带来的显著计算开销使其在实时机器人环境中不可行，而实时环境对速度和效率的要求极高。为了克服现有VLA模型的局限性，我们提出NORA，这是一种参数量为3亿的模型，旨在减少计算开销同时保持强大的任务性能。NORA 采用 Qwen-2.5-VL-3B 多模态模型作为其骨干，利用其卓越的视觉语义理解能力来增强视觉推理和行动定位。此外，我们的模型在970,000个真实世界的机器人演示数据上进行了训练，并配备了FAST+分词器以实现高效的动作序列生成。实验结果表明，NORA 在计算开销显著降低的情况下，比现有大规模的VLA模型实现了更好的任务性能，使其成为实时机器人自主控制的更实际的解决方案。