LLM2D

摘要

arXiv:2502.01976v4 宣告类型: replace-cross 摘要：大型语言模型在各种任务上取得了显著的成功，但在推理过程中面临着高昂的计算成本问题，这限制了它们在资源受限的应用中的部署。为了解决这一问题，我们提出了一种名为 Token 级路由协作推理 (CITER) 的新框架，该框架通过 Token 级路由策略使小规模和大规模语言模型 (SLMs & LLMs) 之间能够高效协作。具体而言，CITER 将非关键 Token 转发给 SLM 以提高效率，将关键 Token 转发给 LLM 以获得泛化质量。我们将路由器训练作为策略优化过程，路由器根据预测质量和生成的推理成本获得奖励。这使得路由器能够学习预测 Token 级路由分数，并基于当前 Token 和其决策对未来影响做出路由决策。为了进一步加速奖励评估过程，我们引入了一种捷径，大幅减少了奖励估计的成本，提高了我们方法的实用性。在五个基准数据集上的 extensive 实验表明，CITER 在降低推理成本的同时保持了高质量的生成，为实时和资源受限的应用提供了有前途的解决方案。我们的数据和代码可在 https://github.com/aiming-lab/CITER 获取。