LLM2D
协作推理以实现高效的大语言模型解码与token级路由
CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing
作者: Wenhao Zheng, Yixiao Chen, Weitong Zhang, Souvik Kundu, Yun Li, Zhengzhong Liu, Eric P. Xing, Hongyi Wang, Huaxiu Yao
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2502.01976v3

摘要

arXiv:2502.01976v3 宣告类型: 补充-交叉 摘要:大规模语言模型在各种任务中取得了显著的成果,但在推理过程中面临高昂的计算成本问题,限制了它们在资源受限应用中的部署。为了解决这个问题,我们提出了一个名为 CITER(Collaborative Inference with Token-level Routing)的新颖框架,通过标记级别路由策略实现了小规模和大规模语言模型(SLMs & LLMs)之间的高效协作。具体来说,CITER 将非关键标记路由到 SLM 以提高效率,将关键标记路由到 LLM 以保证生成的质量。我们将路由器的训练形式化为策略优化过程,路由器根据预测的质量和生成的推理成本接收奖励。这使得路由器能够学习预测标记级别的路由得分,并根据当前标记及其决策未来影响来进行路由决策。为了进一步加速奖励评估过程,我们引入了一种捷径,显著降低了奖励估计的成本,从而使我们的方法更具实用性。在五个基准数据集上的广泛实验表明,CITER 在保持高质量生成的同时减少了推理成本,为实时和资源受限应用提供了一个有前景的解决方案。我们的数据和代码可在 https://github.com/aiming-lab/CITE mañana获取。