LLM2D

摘要

arXiv:2505.07833v1 声明类型：交叉摘要：检索增强生成 (RAG) 已经成为通过与外部知识源集成来增强大型语言模型可靠性的新模式。然而，这些系统的高效部署由于其固有的异构计算管道（包括LLM、数据库和专用处理组件）而面临重大技术挑战。我们介绍了Patchwork，这是一种全面的端到端RAG服务框架，旨在解决这些效率瓶颈。Patchwork 的架构提供三项关键创新：首先，它提供了一个灵活的规范接口，使用户能够实现自定义的RAG管道。其次，它将这些管道部署为分布式推理系统，同时针对各个RAG组件的独特可扩展性特征进行优化。第三，Patchwork 包含一种在线调度机制，该机制持续监控请求负载和执行进度，通过战略性地优先处理请求和自动扩展资源动态最小化SLO违规。在四个不同RAG实现的实验评估中，Patchwork 在商业替代方案中表现出显著的性能改进，吞吐量提升了超过48%，同时SLO违规减少约24%。