LLM2D

摘要

arXiv:2412.06832v2 宣告类型: replace-cross 摘要：检索增强生成（RAG）通过将推理能力与静态知识库分离，使大语言模型（LLMs）能够利用新的信息。传统的RAG改进措施探索了垂直扩展（即，将子任务分配给专门模块）和水平扩展（即，跨多个代理复制任务）两种方式以提高性能。然而，实际应用环境对服务级别协议（SLA）和服务质量（QoS）有着多样化的要求，这些要求涉及在诸如降低成本、保证答案质量以及遵守特定操作约束等各种目标之间的权衡。本文介绍了一种面向现实世界的问答（QA）应用的多代理RAG系统方法。通过将特定任务的功能需求（如答案质量、成本和延迟）整合到系统中，我们能够实现动态重构，以满足多种SLA。我们的方法将服务级别目标（SLO）映射到系统级别参数，从而在指定的资源约束内生成最优结果。我们在问答领域进行了案例研究，展示了如何通过调整一个多代理RAG系统来有效管理传递答案质量和成本之间的权衡。基于查询意图和运行条件，我们系统地平衡了性能和资源利用率。这种方法使系统能够满足各种查询类型的SLO，展示了其在实际应用中的实用性。