摘要
arXiv:2504.03651v1 宣告类型: cross
摘要: 大型语言模型在各种应用中得到了广泛应用,涵盖了交互式在线任务和批量离线任务。鉴于在线任务的突发性和对延迟的敏感性,过度分配资源是常见做法。这允许在在线负载较低的时期整合延迟不敏感的离线任务,提高资源利用率。然而,通过预emption机制战略性地为在线和离线任务服务在利用离线任务的灵活性方面存在不足,并且存在KV缓存重新计算和不规则的工作负载问题。
在这篇论文中,我们引入了Echo,一个协作的在线离线任务服务系统,包括调度器、KV缓存管理器和估算工具包。调度器和KV缓存管理器紧密合作,最大化离线任务的吞吐量,而估算工具包进一步预测执行时间以确保在线任务的SLO。调度器利用上一次迭代的批处理信息来减少寻找最优调度方案的搜索空间。KV缓存管理器根据任务类型和前缀共享的机会设置KV缓存的优先级,以减少重新计算。最后,估算工具包预测离线任务的执行时间、未来内存消耗和吞吐量,以引导调度器、KV缓存管理器和系统部署者。基于实际工作负载的评估表明,Echo可以将离线任务的吞吐量提高多达3.3倍,同时满足在线任务的SLO。