摘要
arXiv:2502.02040v1 交叉类型: cross
摘要: 残差变换增强了大型语言模型(LLMs)的表示深度和表达能力。然而,在自回归生成过程中在整个标记上应用静态残差变换会导致推理效率和生成保真度之间的次优权衡。现有方法,包括早期退出、跳过解码和深度混合,通过根据标记复杂度调节残差变换来解决这个问题。尽管如此,这些方法主要关注通过模型层遍历的标记距离,而忽视了残差演变的潜在速度。我们引入了多速率残差混合(M2R2)框架,动态调节残差速度以提高早期对齐,从而提高推理效率。在如Koala、Self-Instruct、WizardLM和MT-Bench等以推理为导向的任务上,M2R2超越了基于距离的策略,平衡了生成质量和加速。在自我推测解码设置中,M2R2在MT-Bench上的加速比达到了2.8倍,超越了诸如2模型推测解码、Medusa、Ahead-of-Time解码和DEED等方法。在专家混合(MoE)架构中,将早期残差对齐与先加载到高带宽内存(HBM)中的专家切换结合,加速解码,减少了专家切换瓶颈,实现了2.9倍的加速,使其在资源受限环境中非常有效。