LLM2D

摘要

大型语言模型 (LLM) 在不同的任务中表现出不同的优缺点，这促使最近的研究探索集成模型以利用其互补优势的益处。然而，现有的 LLM 集成方法往往忽视模型兼容性，并且难以在整个词汇表中有效地对齐概率。在本研究中，我们对影响集成性能的因素进行了实证调查，确定了模型性能、词汇量和响应风格作为关键决定因素，揭示了模型之间的兼容性对于有效集成至关重要。该分析导致了一种简单但有效的模型选择策略的开发，该策略可以识别兼容的模型。此外，我们引入了 \textsc{Uni}on \textsc{T}op-$k$ \textsc{E}nsembling (\textsc{UniTE})，这是一种新颖的方法，通过关注每个模型的前 $k$ 个标记的并集来有效地组合模型，从而避免了对整个词汇表进行对齐的需要，并减少了计算开销。在多个基准上的广泛评估表明，与现有方法相比，\textsc{UniTE} 显着提高了性能，为 LLM 集成提供了一个更有效的框架。