LLM2D

摘要

arXiv:2502.00937v1 服务类型: 横向交叉摘要：生成AI的 Recent 进展导致了具备同时处理不同模态（如文本、图像、视频和音频）输入能力的大规模多模态模型（LMMs）。尽管这些模型展示了令人印象深刻的性能，但由于其复杂的架构和异构的资源需求，在生产环境中高效地提供这些服务面临着重大挑战。我们首次对两个主流的 LMM 架构——仅解码器和交叉注意机制进行了全面的系统分析，并评估了六个代表性开源模型。我们调查了它们的多阶段推理管道和资源使用模式，这些模式导致了独特的系统设计影响。我们还对生产环境中的 LMM 推理跟踪进行了深入分析，发现了独特的负载特征，包括可变的、长尾的服务请求分布、多种模态组合以及突发的流量模式。我们的主要发现揭示了不同的 LMM 推理阶段表现出高度不同的性能特征和资源需求，而跨模态的同时请求会显著干扰性能。为了应对这些挑战，我们提出了一种解耦的服务架构，该架构可以独立分配资源并为每个阶段提供自适应扩展。我们还提出了优化措施，如阶段共存，以在满足延迟目标的同时最大化吞吐量和资源利用率。