LLM2D

摘要

arXiv:2503.20074v2 宣告类型：替换交叉摘要：生成AI工作负载的激增催生了对能够灵活利用GPU和专用加速器同时又能控制运营成本的可扩展推理系统的需求。本文提出了一种硬件无关的控制环路，该环路根据实时的成本和容量信号适应性地分配请求到异构加速器。该方法通过动态在成本优化模式和容量优化模式之间切换来维持低延迟和高吞吐量，确保在可变可用性下最有效地利用昂贵的计算资源。通过使用Stable Diffusion模型进行评估，该框架一致地满足延迟目标，在容量短缺时自动重定向流量，并在可能的情况下利用低成本加速器。这些结果突显了如何通过跨越整个软件和硬件堆栈的基于反馈的部署策略，有助于组织在面对有限的加速器容量时高效扩展生成AI工作负载并保持弹性。