摘要
arXiv:2503.20384v1 Announce Type: cross
摘要:多模态大型语言模型(MLLMs)在理解和处理复杂语言和视觉数据方面表现出色,使通用型机器人系统能够解析指令并执行实体任务。然而,它们的实际部署受到巨大的计算和存储需求的阻碍。最近关于LLM层中同质模式的见解激发了减稀疏化技术来应对这些挑战,例如早期退出和标记修剪。然而,这些方法往往忽略了编码最相关的语义信息的最终层在下游机器人任务中的关键作用。鉴于神经科学中最近关于浅脑假说(SBH)的突破以及模型减稀疏化中的专家混合,我们将每个LLM层视为专家,并提出了一种用于动态LLM层激活的多层次视觉-语言-行动模型(MoLe-VLA,或简称为MoLe)架构。我们引入了一种时空感知路由器(STAR)来MoLe,根据机器人的当前状态仅激活层的部分,模拟大脑专为认知和因果推理设计的信号路径。此外,为了弥补MoLe中LLM认知能力的损失,我们设计了一种认知自我知识蒸馏(CogKD)框架。CogKD通过利用认知特征增强任务需求的理解,并提高了生成相关动作序列的能力。在RLBench仿真和真实环境中的广泛实验表明,MoLe-VLA在效率和性能方面均具有优势。具体而言,MoLe-VLA在十个任务中的平均成功率提高了8%,同时与标准LLM相比,计算成本降低了高达5.6倍。