摘要
arXiv:2502.01976v5 宣告类型: replace-cross
摘要:大型语言模型在各种任务中取得了显著的成果,但在推理过程中遭受高计算成本的困扰,限制了其在资源受限应用中的部署。为了解决这个问题,我们提出了一种名为 Collaborative Inference with Token-level Routing (CITER) 的新型框架,该框架通过一种基于标记级路由策略实现了小型和大型语言模型(SLMs 和 LLMs)之间的高效协作。具体而言,CITER 将非关键标记路由到 SLM 以提高效率,并将关键标记路由到 LLM 以提高泛化质量。我们将路由器训练形式化为一种策略优化过程,其中路由器根据预测质量和生成的推理成本获得奖励。这使得路由器能够学习预测标记级路由分数,并基于当前标记及其决策对未来影响作出路由决策。为了进一步加速奖励评估过程,我们引入了一种捷径,大幅减少了奖励估计的成本,提高了我们方法的实用性。在五个基准数据集上的广泛实验表明,CITER 在保留高质量生成的同时降低了推理成本,为实时和资源受限的应用提供了有前途的解决方案。我们的数据和代码可在 https://github.com/aiming-lab/CITER 获取。