LLM2D

摘要

arXiv:2502.01976v1 宣布类型: cross 摘要：大型语言模型在各种任务中取得了显著的成功，但在推断过程中却面临高昂的计算成本，这限制了它们在资源受限应用中的部署。为了解决这一问题，我们提出了一种新颖的CITER（协作的token级路由推理）框架，通过token级路由策略实现了小型语言模型（SLMs）和大型语言模型（LLMs）之间的高效协作。具体而言，CITER将非关键token路由到SLM以提高效率，将关键token路由到LLM以获取泛化质量。我们将路由器训练视为策略优化，其中路由器根据预测质量以及生成的推理成本获得奖励。这使得路由器可以学习预测token级别的路由评分，并基于当前token及其决策对未来影响的考量进行路由决策。为了进一步加快奖励评估过程，我们引入了一种捷径，显著减少了奖励估计的成本，并提高了我们方法的实用性。在五个基准数据集上的广泛实验表明，CITER在保持高质量生成的同时降低了推理成本，为实时和资源受限应用提供了有希望的解决方案。