摘要
arXiv:2504.08838v1 类型: cross
摘要:推测解码是减少大型语言模型(LLMs)延迟的一种强大技术,它提供了一种容错框架,使得可以使用高度压缩的草稿模型。在这项工作中,我们提出了Self-Distilled Sparse Drafters (SD$^2$),这是一种新颖的方法,利用自我数据蒸馏和细粒度权重稀疏性来生成高效、对齐良好的草稿模型。SD$^2$系统地提高了草稿标记的接受率,同时显著减少了乘加操作(MACs),即使在草稿模型和目标模型来自不同模型系列的通用辅助生成(UAG)设置中也是如此。在Llama-3.1-70B目标模型上,与层剪枝草稿模型相比,SD$^2$提供了1.59倍更高的平均接受长度(MAL),并且与密集草稿模型相比,MACs减少了43.87%,同时MAL减少了8.36%。我们的结果突显了稀疏性意识下的微调和压缩策略在提高LLM推理效率的同时保持与目标模型对齐的潜力。