LLM2D
面向层和时间步的可微tokens压缩比以提高高效扩散变换器的效率
Layer- and Timestep-Adaptive Differentiable Token Compression Ratios for Efficient Diffusion Transformers
作者: Haoran You, Connelly Barnes, Yuqian Zhou, Yan Kang, Zhenbang Du, Wei Zhou, Lingzhi Zhang, Yotam Nitzan, Xiaoyang Liu, Zhe Lin, Eli Shechtman, Sohrab Amirghodsi, Yingyan Celine Lin
发布日期: 3/28/2025
arXiv ID: oai:arXiv.org:2412.16822v2

摘要

arXiv:2412.16822v2 宣告类型: replace-cross 摘要:扩散变压器(DiTs)已在图像生成质量方面达到了最先进的(SOTA)水平,但它们存在高延迟和内存低效的问题,这使得它们难以部署在资源受限的设备上。一个主要的效率瓶颈在于现有DiTs在图像的所有区域上都应用了相同数量的计算。然而,并不是所有图像片段都很重要,某些局部区域需要更多的计算,例如物体。为了解决这个问题,我们提出了DiffCR,这是一种带有可微压缩比的动态DiT推理框架,它可以自动学习在每一层和每个时间步长内为每个图像片段动态路由计算,从而提高DiT的效率。具体来说,DiffCR集成了以下三个特征:(1)基于图像片段的路由方案,其中每个DiT层包括一个路由器,该路由器与模型权重共同微调以预测图像片段的重要性得分。这样一来,不重要的图像片段可以绕过整个层的计算;(2)逐层可微分的比率机制,其中不同的DiT层从零初始化自动学习不同的压缩比率,导致冗余层具有较高的压缩比率,而其他层则保持较低的压缩度或完全不压缩;(3)逐步长可微分的比率机制,其中每个去噪步骤学习其自己的压缩比率。生成结果模式在噪声较大的步骤中显示出更高的比率,在图像变得更为清晰时则显示出较低的比率。在文本到图像和修补任务上的广泛实验表明,DiffCR能够有效地捕捉图像片段、层和时间步长维度上的动态性,相较于之前的成果,它在生成质量和效率之间取得了更优异的权衡。该项目网站可访问 https://www.haoranyou.com/diffcr。