LLM2D

摘要

arXiv:2502.01662v1 广义类型: 横跨领域摘要：通过结合多个模型来增强大型语言模型（LLMs）的方法虽然能够提升模型性能，但会带来高昂的计算成本。本文中，我们介绍了一种名为推测式集成的新框架，该框架能够在不牺牲性能的情况下加速LLM集成，灵感来源于推测性解码——在推测性解码中，一个小的提案模型按顺序生成标记，而一个较大的目标模型并行验证它们。我们的方法基于两个关键洞察：（1）验证分布可以是提案模型和目标模型的集成分布；（2）交替每个模型作为提案者和验证者可以进一步提升效率。我们将这种方法推广到n个模型的集成，并理论上证明推测式集成（SE）永远不会比标准集成慢，通常能够更快。广泛的实验结果表明，在不牺牲生成质量的情况下，推测式集成的方法比标准集成技术提高了1.11-2.23倍的速度。我们的代码可在 https://github.com/Kamichanw/Speculative-Ensemble/ 获得。