摘要
arXiv:2503.20384v2 任务类型: replace-cross
摘要: 多模态大型语言模型(MLLMs)在理解和处理复杂语言和视觉数据方面表现出色,使通用机器人系统能够理解指令并执行具身任务。然而,它们的实际部署受到巨大计算和存储需求的阻碍。最近对LLM层中同质模式的洞察启发了压缩技术来解决这些挑战,例如早期退出和 token 剪枝。然而,这些方法往往忽略了最终层的作用,这些层编码了对下游机器人任务最相关的语义信息。与最近神经科学中浅脑假说(SBH)的突破以及模型压缩中的专家混合相结合,我们将每个LLM层视为一个专家,并提出了一个基于动态LLM层激活的Mixture-of-Layers Vision-Language-Action模型(MoLe-VLA,或简称MoLe)架构。我们引入了一种空间-时间感知路由器(STAR),根据机器人的当前状态,仅选择性地激活层的一部分,模拟大脑专门为认知和因果推理设计的信号路径。此外,为了弥补MoLe中LLM认知能力的损失,我们设计了一种认知自我知识蒸馏(CogKD)框架。CogKD通过利用认知特征增强对任务需求的理解,并通过生成相关任务序列来提高生成的效果。在RLBench模拟和真实世界环境中的广泛实验表明,MoLe-VLA在效率和性能方面均具备优越性。具体而言,MoLe-VLA在十个任务中将平均成功率提高了8%,同时与标准LLM相比,计算成本降低了多达5.6倍。