摘要
arXiv:2502.01976v2 宣传类型: 交叉
摘要: 大型语言模型已经在各种任务中取得了显著的成功,但在推理过程中面临着计算成本高的问题,这限制了它们在资源受限应用中的部署。为了解决这一问题,我们提出了一种名为CITER(Collaborative Inference with Token-level Routing,基于令牌层级路由的合作推理)的新颖框架,通过令牌层级路由策略实现了小型和大型语言模型(SLMs & LLMs)之间的高效协作。具体来说,CITER将非关键令牌路由到小型语言模型进行效率优化,并将关键令牌路由到大型语言模型以获得泛化质量。我们将路由器训练定义为一种策略优化过程,其中路由器根据预测的质量和生成的推理成本接收奖励。这使得路由器能够学习预测令牌层级的路由分数,并根据当前令牌及其决策对未来影响的决策进行路由决策。为了进一步加速奖励评估过程,我们引入了一种捷径,显著减少了奖励估计的成本,从而提高了我们方法的实用性。在五个基准数据集上的广泛实验表明,CITER在保持高质量生成的同时降低了推理成本,为实时和资源受限的应用提供了前景广阔的选择。