LLM2D

摘要

arXiv:2502.01976v2 宣传类型: 交叉摘要: 大型语言模型已经在各种任务中取得了显著的成功，但在推理过程中面临着计算成本高的问题，这限制了它们在资源受限应用中的部署。为了解决这一问题，我们提出了一种名为CITER（Collaborative Inference with Token-level Routing，基于令牌层级路由的合作推理）的新颖框架，通过令牌层级路由策略实现了小型和大型语言模型（SLMs & LLMs）之间的高效协作。具体来说，CITER将非关键令牌路由到小型语言模型进行效率优化，并将关键令牌路由到大型语言模型以获得泛化质量。我们将路由器训练定义为一种策略优化过程，其中路由器根据预测的质量和生成的推理成本接收奖励。这使得路由器能够学习预测令牌层级的路由分数，并根据当前令牌及其决策对未来影响的决策进行路由决策。为了进一步加速奖励评估过程，我们引入了一种捷径，显著减少了奖励估计的成本，从而提高了我们方法的实用性。在五个基准数据集上的广泛实验表明，CITER在保持高质量生成的同时降低了推理成本，为实时和资源受限的应用提供了前景广阔的选择。