LLM2D
NORA:一个小型开源通用视觉语言动作模型用于 embodied 任务
NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks
作者: Chia-Yu Hung, Qi Sun, Pengfei Hong, Amir Zadeh, Chuan Li, U-Xuan Tan, Navonil Majumder, Soujanya Poria
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2504.19854v1

摘要

arXiv:2504.19854v1 Announce Type: cross 摘要:现有的视觉-语言-行动(VLA)模型在零样本场景中展示了令人鼓舞的性能,展示了出色的任务执行和推理能力。然而,视觉编码的局限性带来了重大挑战,这在对象抓取等任务中会导致失败。此外,这些模型通常由于其庞大的规模而遭受计算开销过高的问题,参数量往往超过70亿。虽然这些模型在推理和任务规划方面表现出色,但它们带来的显著计算开销使其在实时机器人环境中不可行,而实时环境对速度和效率的要求极高。为了克服现有VLA模型的局限性,我们提出NORA,这是一种参数量为3亿的模型,旨在减少计算开销同时保持强大的任务性能。NORA 采用 Qwen-2.5-VL-3B 多模态模型作为其骨干,利用其卓越的视觉语义理解能力来增强视觉推理和行动定位。此外,我们的模型在970,000个真实世界的机器人演示数据上进行了训练,并配备了FAST+分词器以实现高效的动作序列生成。实验结果表明,NORA 在计算开销显著降低的情况下,比现有大规模的VLA模型实现了更好的任务性能,使其成为实时机器人自主控制的更实际的解决方案。