摘要
arXiv:2411.07447v3 宣告类型: 替换-交叉
摘要: LLMs 在数据库系统和数据库应用程序中越来越多地被用于更好地管理和决策,其中LLM推断需要大量的GPU成本。然而,现有的LLM推理系统相比于数据库系统来说速度较慢,这限制了LLM在数据库系统内部的应用扩展。本文首先分析了LLM推理性能,并重点关注在LLM推理中的数据管理问题。我们揭示了问题的根本原因是执行多个并发推理请求时缺乏足够的资源配置模型和优化策略。我们通过引入并发推理请求的成本模型和新的调度策略,适应经典的数据库多查询优化技术,从而优化并发请求对内存资源的使用,显著提高了性能。