LLM2D
面向重新配置多智能体RAG的SLA管理:一种问答系统方法
SLA Management in Reconfigurable Multi-Agent RAG: A Systems Approach to Question Answering
作者: Michael Iannelli, Sneha Kuchipudi, Vera Dvorak
发布日期: 4/30/2025
arXiv ID: oai:arXiv.org:2412.06832v2

摘要

arXiv:2412.06832v2 宣告类型: replace-cross 摘要:检索增强生成(RAG)通过将推理能力与静态知识库分离,使大语言模型(LLMs)能够利用新的信息。传统的RAG改进措施探索了垂直扩展(即,将子任务分配给专门模块)和水平扩展(即,跨多个代理复制任务)两种方式以提高性能。然而,实际应用环境对服务级别协议(SLA)和服务质量(QoS)有着多样化的要求,这些要求涉及在诸如降低成本、保证答案质量以及遵守特定操作约束等各种目标之间的权衡。 本文介绍了一种面向现实世界的问答(QA)应用的多代理RAG系统方法。通过将特定任务的功能需求(如答案质量、成本和延迟)整合到系统中,我们能够实现动态重构,以满足多种SLA。我们的方法将服务级别目标(SLO)映射到系统级别参数,从而在指定的资源约束内生成最优结果。 我们在问答领域进行了案例研究,展示了如何通过调整一个多代理RAG系统来有效管理传递答案质量和成本之间的权衡。基于查询意图和运行条件,我们系统地平衡了性能和资源利用率。这种方法使系统能够满足各种查询类型的SLO,展示了其在实际应用中的实用性。