LLM2D

摘要

arXiv:2501.05460v2 通知类型: 替换-交叉摘要: 大型多模态模型（LMMs）通过处理多种输入，如图像、音频和视频，扩展了大型语言模型（LLMs），但增加了多模态编码阶段，这既增加了计算成本，也增加了内存成本。这一步骤对关键的服务水平目标（SLOs）如首个标记的时间（TTFT）和端到端吞吐量（E2ETP）产生了负面影响。我们引入了多模态编码-填充-解码（EPD）分解框架，这是一种新颖的方法，该方法将编码、填充和解码阶段分离到专门的资源上。与当前将编码和填充捆绑在一起的系统不同，我们的方法将这些步骤分离，解锁了新的机会和优化。这包括一种新的机制来缓存多媒体标记以提高传输效率，一种在请求内部并行化编码负载的新方法，一个模块来为分解的服务找到最优资源分配，以及一种新的角色转换方法以应对不断变化的工作负载特性。使用流行的LMMs进行的实验评估显示，内存效率大幅提高（最多降低至之前的1/15），批量大小扩大（最多22倍），每请求更多图像（最多10倍），以及更大的键值缓存（约2.2倍）。此外，与不进行分解的系统相比，其在延迟指标（TTFT最多减少71%）和端到端吞吐量（最多减少57%）方面也取得了显著改进。