LLM2D

摘要

扩散模型因其在各种应用中的出色生成能力而引起了社区的广泛关注。然而，其典型的多步顺序去噪性质导致了高累积延迟，从而排除了并行计算的可能性。为了解决这个问题，我们引入了 AsyncDiff，这是一种通用的即插即用加速方案，它能够在多个设备之间实现模型并行。我们的方法将繁重的噪声预测模型划分为多个组件，并将每个组件分配给不同的设备。为了打破这些组件之间的依赖链，它利用连续扩散步骤中隐藏状态的高度相似性，将传统的顺序去噪转换为异步过程。因此，每个组件都可以并行地在不同的设备上进行计算。所提出的策略显着减少了推理延迟，同时对生成质量的影响最小。具体来说，对于 Stable Diffusion v2.1，AsyncDiff 在四块 NVIDIA A5000 GPU 上实现了 2.7 倍的加速，性能几乎没有下降，以及 4.0 倍的加速，CLIP 分数仅下降了 0.38。我们的实验还表明，AsyncDiff 可以轻松应用于视频扩散模型，并取得令人鼓舞的性能。代码可在 https://github.com/czg1225/AsyncDiff 获取。