LLM2D

摘要

arXiv:2502.13652v1 Announce Type: 跨领域摘要：大型语言模型（LLMs）规模的不断增长加剧了推理延迟和计算成本。推测性解码方法旨在缓解这些问题，但经常在构建令牌树和验证候选令牌方面面临效率低下。现有的策略，包括链模式、静态树和动态树方法，在准备用于验证的候选令牌树方面存在局限性。我们提出了一种名为C2T的新型方法，该方法采用轻量级分类器动态生成和修剪令牌树。我们的分类器会考虑到除了常用联合概率之外的其他特征变量，以预测每个草稿令牌的信任分数，从而确定它是否是用于验证的候选令牌。该方法在多个基准测试中超过了最先进的（SOTA）方法，如EAGLE-2，通过减少候选令牌总数25%，同时保持甚至提高了接受长度。