LLM2D

摘要

arXiv:2502.13965v1 类型: cross 摘要: 大型语言模型（LLM）应用正从简单的聊天机器人演变为动态的通用代理程序，这些程序扩展了对LLM的调用和输出令牌，以帮助AI代理进行推理、探索并解决复杂的任务。然而，现有的LLM服务系统忽视了程序之间的依赖关系，错过了许多优化的机会。我们的分析表明，提交给LLM服务引擎的程序会经历长时间的累积等待时间，主要原因是在个体LLM请求和程序层面都存在头部阻塞。为解决这一问题，我们介绍了Autellix，这是一种将程序视为一级公民以最小化其端到端延迟的LLM服务系统。Autellix拦截程序提交的LLM调用，为调度器提供程序级别的上下文信息。我们为单线程和分布式程序提出了两种调度算法，基于程序之前完成的调用预emption和优先处理LLM调用。我们的评估显示，在各种不同的LLM和代理任务负载下，与最先进的系统（如vLLM）相比，Autellix在相同延迟的情况下将程序的吞吐量提高了4-15倍。