LLM2D
协作推理以实现高效的大语言模型解码和 token 级路由
CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing
作者: Wenhao Zheng, Yixiao Chen, Weitong Zhang, Souvik Kundu, Yun Li, Zhengzhong Liu, Eric P. Xing, Hongyi Wang, Huaxiu Yao
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2502.01976v4

摘要

arXiv:2502.01976v4 宣告类型: replace-cross 摘要:大型语言模型在各种任务上取得了显著的成功,但在推理过程中面临着高昂的计算成本问题,这限制了它们在资源受限的应用中的部署。为了解决这一问题,我们提出了一种名为 Token 级路由协作推理 (CITER) 的新框架,该框架通过 Token 级路由策略使小规模和大规模语言模型 (SLMs & LLMs) 之间能够高效协作。具体而言,CITER 将非关键 Token 转发给 SLM 以提高效率,将关键 Token 转发给 LLM 以获得泛化质量。我们将路由器训练作为策略优化过程,路由器根据预测质量和生成的推理成本获得奖励。这使得路由器能够学习预测 Token 级路由分数,并基于当前 Token 和其决策对未来影响做出路由决策。为了进一步加速奖励评估过程,我们引入了一种捷径,大幅减少了奖励估计的成本,提高了我们方法的实用性。在五个基准数据集上的 extensive 实验表明,CITER 在降低推理成本的同时保持了高质量的生成,为实时和资源受限的应用提供了有前途的解决方案。我们的数据和代码可在 https://github.com/aiming-lab/CITER 获取。