LLM2D

摘要

arXiv:2502.01976v3 宣告类型: 补充-交叉摘要：大规模语言模型在各种任务中取得了显著的成果，但在推理过程中面临高昂的计算成本问题，限制了它们在资源受限应用中的部署。为了解决这个问题，我们提出了一个名为 CITER（Collaborative Inference with Token-level Routing）的新颖框架，通过标记级别路由策略实现了小规模和大规模语言模型（SLMs & LLMs）之间的高效协作。具体来说，CITER 将非关键标记路由到 SLM 以提高效率，将关键标记路由到 LLM 以保证生成的质量。我们将路由器的训练形式化为策略优化过程，路由器根据预测的质量和生成的推理成本接收奖励。这使得路由器能够学习预测标记级别的路由得分，并根据当前标记及其决策未来影响来进行路由决策。为了进一步加速奖励评估过程，我们引入了一种捷径，显著降低了奖励估计的成本，从而使我们的方法更具实用性。在五个基准数据集上的广泛实验表明，CITER 在保持高质量生成的同时减少了推理成本，为实时和资源受限应用提供了一个有前景的解决方案。我们的数据和代码可在 https://github.com/aiming-lab/CITE mañana获取。