LLM2D

摘要

arXiv:2502.01662v1 交叉类型: ensemble 摘要：通过组合多个模型来增强大型语言模型（LLMs）的集成方法面临着高计算成本的问题。在本文中，我们引入了一种名为推测性集成的新框架，该框架可以在不牺牲性能的情况下加速LLM集成。这一框架受到推测性解码的启发，推测性解码中，一个较小的提议模型会依次生成令牌，而一个较大的目标模型会并行验证这些令牌。我们的方法基于两个关键洞察：（1）验证分布可以是提议模型和目标模型两个模型的集成分布，（2）交替各自模型作为提议者和验证者可以进一步提高效率。我们将此方法推广到具有n个模型的集成系统，并理论上证明推测性集成（SE）从不比标准集成更慢，通常可以实现更快的速度。广泛的实验表明，在不牺牲生成质量的情况下，与标准集成技术相比，SE可以实现1.11x-2.23x的速度提升。我们的代码可以在 https://github.com/Kamichanw/Speculative-Ensemble/ 获取。