摘要
arXiv:2501.05460v2 通知类型: 替换-交叉
摘要: 大型多模态模型(LMMs)通过处理多种输入,如图像、音频和视频,扩展了大型语言模型(LLMs),但增加了多模态编码阶段,这既增加了计算成本,也增加了内存成本。这一步骤对关键的服务水平目标(SLOs)如首个标记的时间(TTFT)和端到端吞吐量(E2ETP)产生了负面影响。我们引入了多模态编码-填充-解码(EPD)分解框架,这是一种新颖的方法,该方法将编码、填充和解码阶段分离到专门的资源上。与当前将编码和填充捆绑在一起的系统不同,我们的方法将这些步骤分离,解锁了新的机会和优化。这包括一种新的机制来缓存多媒体标记以提高传输效率,一种在请求内部并行化编码负载的新方法,一个模块来为分解的服务找到最优资源分配,以及一种新的角色转换方法以应对不断变化的工作负载特性。使用流行的LMMs进行的实验评估显示,内存效率大幅提高(最多降低至之前的1/15),批量大小扩大(最多22倍),每请求更多图像(最多10倍),以及更大的键值缓存(约2.2倍)。此外,与不进行分解的系统相比,其在延迟指标(TTFT最多减少71%)和端到端吞吐量(最多减少57%)方面也取得了显著改进。