摘要
集成多个模型一直是突破现有性能极限的有效方法,并广泛应用于分类任务中,通过简单地对多个分类器的分类概率向量进行平均来实现更高的准确率。然而,在蓬勃发展的开源大型语言模型(LLM)社区中,集成方法很少见,通常仅限于集成LLM的全文输出,例如使用排序器选择最佳输出,这导致了对令牌级概率信息的利用不足。在本文中,我们将LLM的每个令牌生成视为一种用于集成的分类(GaC)。这种方法充分利用了每个生成步骤中的概率信息,并更好地防止LLM生成会导致雪球效应错误的早期错误令牌。在实验中,我们在几个基准测试(包括考试、数学和推理)上对最先进的LLM进行了集成,观察到我们的方法打破了现有社区的性能上限。此外,我们观察到答案中的大多数令牌都很简单,不会影响最终答案的正确性。因此,我们还尝试仅对关键令牌进行集成,结果表明在所有基准测试中,性能更高,延迟更低。