LLM2D
基于分类器的投机解码中树结构构建方法
C2T: A Classifier-Based Tree Construction Method in Speculative Decoding
作者: Feiye Huo, Jianchao Tan, Kefeng Zhang, Xunliang Cai, Shengli Sun
发布日期: 2/20/2025
arXiv ID: oai:arXiv.org:2502.13652v1

摘要

arXiv:2502.13652v1 Announce Type: 跨领域 摘要:大型语言模型(LLMs)规模的不断增长加剧了推理延迟和计算成本。推测性解码方法旨在缓解这些问题,但经常在构建令牌树和验证候选令牌方面面临效率低下。现有的策略,包括链模式、静态树和动态树方法,在准备用于验证的候选令牌树方面存在局限性。我们提出了一种名为C2T的新型方法,该方法采用轻量级分类器动态生成和修剪令牌树。我们的分类器会考虑到除了常用联合概率之外的其他特征变量,以预测每个草稿令牌的信任分数,从而确定它是否是用于验证的候选令牌。该方法在多个基准测试中超过了最先进的(SOTA)方法,如EAGLE-2,通过减少候选令牌总数25%,同时保持甚至提高了接受长度。