LLM2D
Autellix:作为一个通用程序的LLM代理高效服务引擎
Autellix: An Efficient Serving Engine for LLM Agents as General Programs
作者: Michael Luo, Xiaoxiang Shi, Colin Cai, Tianjun Zhang, Justin Wong, Yichuan Wang, Chi Wang, Yanping Huang, Zhifeng Chen, Joseph E. Gonzalez, Ion Stoica
发布日期: 2/20/2025
arXiv ID: oai:arXiv.org:2502.13965v1

摘要

arXiv:2502.13965v1 类型: cross 摘要: 大型语言模型(LLM)应用正从简单的聊天机器人演变为动态的通用代理程序,这些程序扩展了对LLM的调用和输出令牌,以帮助AI代理进行推理、探索并解决复杂的任务。然而,现有的LLM服务系统忽视了程序之间的依赖关系,错过了许多优化的机会。我们的分析表明,提交给LLM服务引擎的程序会经历长时间的累积等待时间,主要原因是在个体LLM请求和程序层面都存在头部阻塞。为解决这一问题,我们介绍了Autellix,这是一种将程序视为一级公民以最小化其端到端延迟的LLM服务系统。Autellix拦截程序提交的LLM调用,为调度器提供程序级别的上下文信息。我们为单线程和分布式程序提出了两种调度算法,基于程序之前完成的调用预emption和优先处理LLM调用。我们的评估显示,在各种不同的LLM和代理任务负载下,与最先进的系统(如vLLM)相比,Autellix在相同延迟的情况下将程序的吞吐量提高了4-15倍。