摘要
arXiv:2502.00937v1 服务类型: 横向交叉
摘要:生成AI的 Recent 进展导致了具备同时处理不同模态(如文本、图像、视频和音频)输入能力的大规模多模态模型(LMMs)。尽管这些模型展示了令人印象深刻的性能,但由于其复杂的架构和异构的资源需求,在生产环境中高效地提供这些服务面临着重大挑战。
我们首次对两个主流的 LMM 架构——仅解码器和交叉注意机制进行了全面的系统分析,并评估了六个代表性开源模型。我们调查了它们的多阶段推理管道和资源使用模式,这些模式导致了独特的系统设计影响。我们还对生产环境中的 LMM 推理跟踪进行了深入分析,发现了独特的负载特征,包括可变的、长尾的服务请求分布、多种模态组合以及突发的流量模式。
我们的主要发现揭示了不同的 LMM 推理阶段表现出高度不同的性能特征和资源需求,而跨模态的同时请求会显著干扰性能。为了应对这些挑战,我们提出了一种解耦的服务架构,该架构可以独立分配资源并为每个阶段提供自适应扩展。我们还提出了优化措施,如阶段共存,以在满足延迟目标的同时最大化吞吐量和资源利用率。