LLM2D
用少的更多——在基于大型语言模型的系统中实现路由策略:一篇扩展调研
Doing More with Less -- Implementing Routing Strategies in Large Language Model-Based Systems: An Extended Survey
作者: Clovis Varangot-Reille, Christophe Bouvard, Antoine Gourru, Mathieu Ciancone, Marion Schaeffer, Fran\c{c}ois Jacquenet
发布日期: 2/5/2025
arXiv ID: 2502.00409

摘要

arXiv:2502.00409v2 宣布类型:替换 摘要:基于大型语言模型(LLM)的系统,即包括LLM作为核心组件的相互连接的元素(例如,对话代理),通常是单一、静态的架构,依赖于单一的LLM来处理所有用户查询。然而,它们往往需要不同的预处理策略、不同的推理层次或知识。通用的大规模语言模型(例如,GPT-4),训练于非常大的多主题语料库上,可以在多种任务中表现良好。它们需要显著的财务、能源和硬件资源,这可能并不适用于基本任务。这意味着对于给定的查询可能需要投入不必要的成本。为解决这一问题,路由机制将用户查询路由到最合适的组件,如较小的LLM或特定主题的专家。这种方法可能在提高响应质量的同时减少成本。路由机制可以扩展到对话代理架构的其他组件,例如最佳嵌入策略的选择。本文探讨了将路由机制整合到基于LLM的系统中的关键考虑因素,重点在于资源管理、成本定义和策略选择。我们的主要贡献包括对问题的正式化表述,对现有方法的新颖分类,强调相关性和资源效率,以及这些策略与行业实践的比较分析。最后,我们确定了关键挑战和未来研究的方向。