摘要
arXiv:2502.01976v3 宣告类型: 补充-交叉
摘要:大规模语言模型在各种任务中取得了显著的成果,但在推理过程中面临高昂的计算成本问题,限制了它们在资源受限应用中的部署。为了解决这个问题,我们提出了一个名为 CITER(Collaborative Inference with Token-level Routing)的新颖框架,通过标记级别路由策略实现了小规模和大规模语言模型(SLMs & LLMs)之间的高效协作。具体来说,CITER 将非关键标记路由到 SLM 以提高效率,将关键标记路由到 LLM 以保证生成的质量。我们将路由器的训练形式化为策略优化过程,路由器根据预测的质量和生成的推理成本接收奖励。这使得路由器能够学习预测标记级别的路由得分,并根据当前标记及其决策未来影响来进行路由决策。为了进一步加速奖励评估过程,我们引入了一种捷径,显著降低了奖励估计的成本,从而使我们的方法更具实用性。在五个基准数据集上的广泛实验表明,CITER 在保持高质量生成的同时减少了推理成本,为实时和资源受限应用提供了一个有前景的解决方案。我们的数据和代码可在 https://github.com/aiming-lab/CITE mañana获取。