摘要
arXiv:2412.10418v2 公告类型: replace-cross
摘要:具有前瞻启发式的受约束解码(CDLH)是一种非常有效的方法,用于将LLM生成的内容与人类偏好对齐。然而,每次生成的令牌需要进行广泛的前瞻展开操作,使得CDLH在实践中成本极高,导致低采用率。相反,常用的解码策略如贪婪解码极其高效,但对约束的满足率很低。我们提出了一种具有推测性前瞻的受约束解码(CDSL),该技术显著提高了CDLH的推理效率,且没有经历贪婪解码所看到的剧烈性能下降。CDSL受到了最近提出的推测性解码思想的启发,该思想使用较小的草稿LLM进行生成,较大的目标LLM进行验证。在CDSL中,草稿模型用于生成前瞻,然后通过目标LLM和任务特定的奖励函数进行验证。这一过程通过减少计算负担来加速解码,同时保持强大的性能。我们在两个约束解码任务中使用三种LLM家族评估了CDSL,在不显著降低性能的情况下,实现了2.2倍到12.15倍的加速。