LLM2D
协作推断以实现高效的大语言模型解码与-Token级别路由
CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing
作者: Wenhao Zheng, Yixiao Chen, Weitong Zhang, Souvik Kundu, Yun Li, Zhengzhong Liu, Eric P. Xing, Hongyi Wang, Huaxiu Yao
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2502.01976v1

摘要

arXiv:2502.01976v1 宣布类型: cross 摘要:大型语言模型在各种任务中取得了显著的成功,但在推断过程中却面临高昂的计算成本,这限制了它们在资源受限应用中的部署。为了解决这一问题,我们提出了一种新颖的CITER(协作的token级路由推理)框架,通过token级路由策略实现了小型语言模型(SLMs)和大型语言模型(LLMs)之间的高效协作。具体而言,CITER将非关键token路由到SLM以提高效率,将关键token路由到LLM以获取泛化质量。我们将路由器训练视为策略优化,其中路由器根据预测质量以及生成的推理成本获得奖励。这使得路由器可以学习预测token级别的路由评分,并基于当前token及其决策对未来影响的考量进行路由决策。为了进一步加快奖励评估过程,我们引入了一种捷径,显著减少了奖励估计的成本,并提高了我们方法的实用性。在五个基准数据集上的广泛实验表明,CITER在保持高质量生成的同时降低了推理成本,为实时和资源受限应用提供了有希望的解决方案。