LLM2D

摘要

arXiv:2503.20384v2 任务类型: replace-cross 摘要: 多模态大型语言模型（MLLMs）在理解和处理复杂语言和视觉数据方面表现出色，使通用机器人系统能够理解指令并执行具身任务。然而，它们的实际部署受到巨大计算和存储需求的阻碍。最近对LLM层中同质模式的洞察启发了压缩技术来解决这些挑战，例如早期退出和 token 剪枝。然而，这些方法往往忽略了最终层的作用，这些层编码了对下游机器人任务最相关的语义信息。与最近神经科学中浅脑假说（SBH）的突破以及模型压缩中的专家混合相结合，我们将每个LLM层视为一个专家，并提出了一个基于动态LLM层激活的Mixture-of-Layers Vision-Language-Action模型（MoLe-VLA，或简称MoLe）架构。我们引入了一种空间-时间感知路由器（STAR），根据机器人的当前状态，仅选择性地激活层的一部分，模拟大脑专门为认知和因果推理设计的信号路径。此外，为了弥补MoLe中LLM认知能力的损失，我们设计了一种认知自我知识蒸馏（CogKD）框架。CogKD通过利用认知特征增强对任务需求的理解，并通过生成相关任务序列来提高生成的效果。在RLBench模拟和真实世界环境中的广泛实验表明，MoLe-VLA在效率和性能方面均具备优越性。具体而言，MoLe-VLA在十个任务中将平均成功率提高了8%，同时与标准LLM相比，计算成本降低了多达5.6倍。