LLM2D
投机ensemble:通过投机加速大型语言模型ensemble
Speculative Ensemble: Fast Large Language Model Ensemble via Speculation
作者: Jiale Fu, Yuchu Jiang, Junkai Chen, Jiaming Fan, Xin Geng, Xu Yang
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2502.01662v1

摘要

arXiv:2502.01662v1 广义类型: 横跨领域 摘要:通过结合多个模型来增强大型语言模型(LLMs)的方法虽然能够提升模型性能,但会带来高昂的计算成本。本文中,我们介绍了一种名为推测式集成的新框架,该框架能够在不牺牲性能的情况下加速LLM集成,灵感来源于推测性解码——在推测性解码中,一个小的提案模型按顺序生成标记,而一个较大的目标模型并行验证它们。我们的方法基于两个关键洞察:(1)验证分布可以是提案模型和目标模型的集成分布;(2)交替每个模型作为提案者和验证者可以进一步提升效率。我们将这种方法推广到n个模型的集成,并理论上证明推测式集成(SE)永远不会比标准集成慢,通常能够更快。广泛的实验结果表明,在不牺牲生成质量的情况下,推测式集成的方法比标准集成技术提高了1.11-2.23倍的速度。我们的代码可在 https://github.com/Kamichanw/Speculative-Ensemble/ 获得。