摘要
arXiv:2504.03454v1 Announce Type: 交叉
摘要:训练大规模的通用语言模型面临着诸多挑战。随着专门专家模型的日益可用,这些模型是从预训练模型微调以特定任务或领域而来的,这提供了一种有前途的替代方案。在现实应用中充分利用这些现有专家模型需要有效的方法来选择或合并最适合特定任务的模型。本文介绍了一种名为 SPECTR 的方法,该方法可以在推理的每个时间步动态组合专家模型。值得注意的是,我们的方法不需要额外的训练,并且能够灵活地在令牌和层级别组合模型。我们的实验结果表明,与替代的无需训练的方法相比,SPECTR 能够提高路由准确性,从而在专家模型的不同领域中提升任务性能。