LLM2D

摘要

arXiv:2503.20074v1 类型: cross 摘要：生成AI工作负载的激增创造了一个需求，即需要一种灵活的推理系统，能够在包含GPU和专用加速器的同时控制运营成本。本文提出了一种硬件无关的控制循环，根据实时的成本和容量信号，在异构加速器之间适配地分配请求。该方法通过动态在成本优化模式和容量优化模式之间切换，保持低延迟和高吞吐量，确保在资源可用性波动时高效利用昂贵的计算资源。使用Stable Diffusion模型进行评估，该框架始终满足延迟目标，在容量不足时自动重定向流量，并在可能的情况下利用低成本的加速器。这些结果突显了如何通过跨整个软件和硬件堆栈的反馈驱动部署策略，帮助组织更高效地扩展生成AI工作负载，同时在加速器容量有限的情况下保持系统韧性。