摘要
arXiv:2505.07858v1 宣布类型: 交叉
摘要:大型语言模型(LLMs)在高效解码方面的需求日益增加,这对依赖于扩展链式思考推理的 OpenAI-o3 和 DeepSeek-R1 等推理密集型架构尤为重要。本文研究了通过密集 LLM 架构的推测性解码技术,以建立加速推理任务的基础见解。虽然利用并行草案验证循环的推测性解码方法被证明是一种有前途的加速技术,但在解码效率的缩放法则方面,与通过预训练->微调->人类反馈的强化学习训练范式开发的常规主干 LLM 相比,仍存在不足之处。在本文中,我们发现了控制草案模型接受率(或解码速度)的对数线性缩放定律(定理 1.1、1.2 和 1.3),涉及三个维度:预训练词元数量、草案模型容量和解码批次大小。基于这些定律,我们实现了 Scylla,以协调流行的 LLM(Llama2/3、Qwen2.5)的多维扩展。实证验证显示,Scylla 在温度 T=0 下比 EAGLE2 的接受率高 1.5-2.2 倍,比 EAGLE3 高 0.3 倍,并且在摘要和 QA 任务上的性能峰值表现尤为突出(图 2)。工业推理引擎部署显示出 Scylla 相对于 EAGLE2 的解码吞吐量提高 2 倍(表 5),验证了系统性缩放对高效 LLM 推理的变革潜力。代码稍后将发布。