LLM2D

摘要

arXiv:2502.01976v5 宣告类型: replace-cross 摘要：大型语言模型在各种任务中取得了显著的成果，但在推理过程中遭受高计算成本的困扰，限制了其在资源受限应用中的部署。为了解决这个问题，我们提出了一种名为 Collaborative Inference with Token-level Routing (CITER) 的新型框架，该框架通过一种基于标记级路由策略实现了小型和大型语言模型（SLMs 和 LLMs）之间的高效协作。具体而言，CITER 将非关键标记路由到 SLM 以提高效率，并将关键标记路由到 LLM 以提高泛化质量。我们将路由器训练形式化为一种策略优化过程，其中路由器根据预测质量和生成的推理成本获得奖励。这使得路由器能够学习预测标记级路由分数，并基于当前标记及其决策对未来影响作出路由决策。为了进一步加速奖励评估过程，我们引入了一种捷径，大幅减少了奖励估计的成本，提高了我们方法的实用性。在五个基准数据集上的广泛实验表明，CITER 在保留高质量生成的同时降低了推理成本，为实时和资源受限的应用提供了有前途的解决方案。我们的数据和代码可在 https://github.com/aiming-lab/CITER 获取。