LLM2D

摘要

arXiv:2412.10418v2 公告类型: replace-cross 摘要：具有前瞻启发式的受约束解码(CDLH)是一种非常有效的方法，用于将LLM生成的内容与人类偏好对齐。然而，每次生成的令牌需要进行广泛的前瞻展开操作，使得CDLH在实践中成本极高，导致低采用率。相反，常用的解码策略如贪婪解码极其高效，但对约束的满足率很低。我们提出了一种具有推测性前瞻的受约束解码(CDSL)，该技术显著提高了CDLH的推理效率，且没有经历贪婪解码所看到的剧烈性能下降。CDSL受到了最近提出的推测性解码思想的启发，该思想使用较小的草稿LLM进行生成，较大的目标LLM进行验证。在CDSL中，草稿模型用于生成前瞻，然后通过目标LLM和任务特定的奖励函数进行验证。这一过程通过减少计算负担来加速解码，同时保持强大的性能。我们在两个约束解码任务中使用三种LLM家族评估了CDSL，在不显著降低性能的情况下，实现了2.2倍到12.15倍的加速。