摘要
arXiv:2504.19854v1 Announce Type: cross
摘要:现有的视觉-语言-行动(VLA)模型在零样本场景中展示了令人鼓舞的性能,展示了出色的任务执行和推理能力。然而,视觉编码的局限性带来了重大挑战,这在对象抓取等任务中会导致失败。此外,这些模型通常由于其庞大的规模而遭受计算开销过高的问题,参数量往往超过70亿。虽然这些模型在推理和任务规划方面表现出色,但它们带来的显著计算开销使其在实时机器人环境中不可行,而实时环境对速度和效率的要求极高。为了克服现有VLA模型的局限性,我们提出NORA,这是一种参数量为3亿的模型,旨在减少计算开销同时保持强大的任务性能。NORA 采用 Qwen-2.5-VL-3B 多模态模型作为其骨干,利用其卓越的视觉语义理解能力来增强视觉推理和行动定位。此外,我们的模型在970,000个真实世界的机器人演示数据上进行了训练,并配备了FAST+分词器以实现高效的动作序列生成。实验结果表明,NORA 在计算开销显著降低的情况下,比现有大规模的VLA模型实现了更好的任务性能,使其成为实时机器人自主控制的更实际的解决方案。