LLM2D

摘要

arXiv:2502.00409v1 宣告类型：新摘要：基于大型语言模型（LLM）的系统，即包含LLM作为中心组件（例如，对话代理）的整体互联元素，通常是静态的且单一的架构，依赖于一个LLM来响应所有用户查询。然而，它们经常需要不同的预处理策略、不同程度的推理或知识。通用的LLM（即GPT-4），在非常大的多主题语料库上进行训练，在各种任务中表现良好。然而，它们需要大量的资金、能源和硬件资源，这可能不适用于基本任务。这意味着对于给定的查询可能会投资不必要的成本。为了克服这个问题，路由机制将用户查询导向最适合的组件，如较小的LLM或特定主题的专家。这种方法可能在提高响应质量的同时减少成本。路由还可以扩展到对话代理架构的其他组件，如最佳嵌入策略的选择。本文探讨了将路由集成到基于LLM的系统中的一些关键考虑因素，重点是资源管理、成本定义和策略选择。我们的主要贡献包括对问题的形式化表述、对现有方法的新型分类强调相关性和资源效率，以及对这些策略与工业实践的比较分析。最后，我们确定了未来研究的关键挑战和方向。