LLM2D
speculative 集成:通过推测实现的快速大规模语言模型集成
Speculative Ensemble: Fast Large Language Model Ensemble via Speculation
作者: Jiale Fu, Yuchu Jiang, Junkai Chen, Jiaming Fan, Xin Geng, Xu Yang
发布日期: 2/5/2025
arXiv ID: 2502.01662

摘要

arXiv:2502.01662v1 交叉类型: ensemble 摘要:通过组合多个模型来增强大型语言模型(LLMs)的集成方法面临着高计算成本的问题。在本文中,我们引入了一种名为推测性集成的新框架,该框架可以在不牺牲性能的情况下加速LLM集成。这一框架受到推测性解码的启发,推测性解码中,一个较小的提议模型会依次生成令牌,而一个较大的目标模型会并行验证这些令牌。我们的方法基于两个关键洞察:(1)验证分布可以是提议模型和目标模型两个模型的集成分布,(2)交替各自模型作为提议者和验证者可以进一步提高效率。我们将此方法推广到具有n个模型的集成系统,并理论上证明推测性集成(SE)从不比标准集成更慢,通常可以实现更快的速度。广泛的实验表明,在不牺牲生成质量的情况下,与标准集成技术相比,SE可以实现1.11x-2.23x的速度提升。我们的代码可以在 https://github.com/Kamichanw/Speculative-Ensemble/ 获取。