LLM2D
用较少的资源做更多的事情——基于大型语言模型的路由策略实现:一篇扩展综述
Doing More with Less -- Implementing Routing Strategies in Large Language Model-Based Systems: An Extended Survey
作者: Clovis Varangot-Reille, Christophe Bouvard, Antoine Gourru, Mathieu Ciancone, Marion Schaeffer, Fran\c{c}ois Jacquenet
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.00409v2

摘要

arXiv:2502.00409v2 宣布类型: 新 摘要: 基于大型语言模型(LLM)的系统,即包含LLM作为中央组件的互联元素(例如,对话代理),通常是一体化的静态架构,依赖单一的LLM来处理所有用户查询。然而,它们往往需要不同的预处理策略、推理层级或知识。擅长多领域的LLM(例如GPT-4),经过非常大的多主题语料库训练后,在多种任务中表现良好。然而,它们需要大量的资金、能源和硬件资源,这些可能对于基本任务来说并不必要。这可能意味着为特定查询投资不必要的成本。为了解决这个问题,路由机制将用户查询导向最适合的组件,如较小的LLM或特定主题的专家。这种方法可能会提高响应质量并减少成本。路由还可以扩展到对话代理架构的其他组件,例如最优嵌入策略的选择。本文探讨了将路由集成到LLM系统中的关键考虑因素,重点关注资源管理、成本定义和策略选择。我们的主要贡献包括对问题的正式化描述、一种新的现有方法分类法,强调相关性和资源效率,以及在与行业实践相关的对比分析。最后,我们识别了关键的挑战和未来研究的方向。