摘要
arXiv:2502.13652v1 Announce Type: 跨领域
摘要:大型语言模型(LLMs)规模的不断增长加剧了推理延迟和计算成本。推测性解码方法旨在缓解这些问题,但经常在构建令牌树和验证候选令牌方面面临效率低下。现有的策略,包括链模式、静态树和动态树方法,在准备用于验证的候选令牌树方面存在局限性。我们提出了一种名为C2T的新型方法,该方法采用轻量级分类器动态生成和修剪令牌树。我们的分类器会考虑到除了常用联合概率之外的其他特征变量,以预测每个草稿令牌的信任分数,从而确定它是否是用于验证的候选令牌。该方法在多个基准测试中超过了最先进的(SOTA)方法,如EAGLE-2,通过减少候选令牌总数25%,同时保持甚至提高了接受长度。