LLM2D

摘要

arXiv:2504.08838v1 类型: cross 摘要:推测解码是减少大型语言模型（LLMs）延迟的一种强大技术，它提供了一种容错框架，使得可以使用高度压缩的草稿模型。在这项工作中，我们提出了Self-Distilled Sparse Drafters (SD$^2$)，这是一种新颖的方法，利用自我数据蒸馏和细粒度权重稀疏性来生成高效、对齐良好的草稿模型。SD$^2$系统地提高了草稿标记的接受率，同时显著减少了乘加操作（MACs），即使在草稿模型和目标模型来自不同模型系列的通用辅助生成（UAG）设置中也是如此。在Llama-3.1-70B目标模型上，与层剪枝草稿模型相比，SD$^2$提供了1.59倍更高的平均接受长度（MAL），并且与密集草稿模型相比，MACs减少了43.87%，同时MAL减少了8.36%。我们的结果突显了稀疏性意识下的微调和压缩策略在提高LLM推理效率的同时保持与目标模型对齐的潜力。