摘要
arXiv:2502.02040v1 类别: cross
摘要:残差变换可以增强大型语言模型(LLMs)的表现力和表达能力。然而,在自回归生成过程中,对所有标记应用静态残差变换会导致推理效率和生成保真度之间的次优权衡。现有方法,包括早期退出、跳过解码和深度混合适应,通过基于标记复杂度调节残差变换来解决这一问题。尽管这些方法主要考虑标记在模型层中走过的距离,但忽视了残差演变的潜在速度。我们提出了多速率残差混合适应(M2R2)框架,该框架动态调节残差速度以提高早期对齐效果,从而提高推理效率。在诸如Koala、Self-Instruct、WizardLM和MT-Bench等以推理为导向的任务中,M2R2超越了基于距离的最新策略,平衡了生成质量和加速效果。在自推测解码设置中,M2R2在MT-Bench上实现了高达2.8倍的加速,优于如双模型推测解码、Medusa、LookAhead 解码和DEED等方法。在专家混合适应(MoE)架构中,将早期残差对齐与专家的提前加载结合到高带宽内存(HBM)中,加速了解码,减少了专家切换瓶颈,并实现了2.9倍的加速,使其在资源受限环境中非常有效。