LLM2D

摘要

arXiv:2502.15077v2 宣告类型: replace-cross 摘要：自SORA表现出色的性能以来，用于视频生成的扩散变换器引起了大量的研究兴趣。在GPU上高效部署这类生成型AI模型已被动态量化技术证明可行。然而，资源受限的设备无法支持动态量化，需要对模型进行静态量化，以便在AI处理器上高效部署。在本文中，我们提出了一种新的方法，用于OpenSora（参见[opensora]）的后训练量化，无需依赖动态量化技术。我们的方法采用静态量化，其在CLIP和VQA指标上达到的视频质量与FP16和动态量化ViDiT-Q方法相当。特别是，我们利用每一步的校准数据为每个时间步提供适当的后训练静态量化模型，并且在权重上使用通道级量化，在激活上使用张量级量化。进一步应用平滑量化技术，可以使用静态量化模型获得高质量的视频输出。广泛的实验结果表明，静态量化可以作为视频扩散变换器动态量化的一种可行替代方案，提供了一种更高效的方案而不牺牲性能。