摘要
arXiv:2502.00382v1 宣告类型: cross
摘要: 近期视觉生成领域的进步在生成高质量内容方面取得了显著进展。然而,大多数方法都面临一个根本性问题——推理计算效率的瓶颈。这些算法往往需要多次遍历transformer模型以生成令牌或去噪输入。然而,在所有迭代过程中,模型大小保持一致,这使得计算成本高昂。在本项工作中,我们主要通过两个关键构想来解决这一问题——(a) 生成过程中的所有部分都需要相等的计算量并不必要,我们设计了一种解码时间模型扩展计划,以有效利用计算资源;(b) 我们可以缓存并重用一些计算。结合这两个构想,我们能够在使用较小模型处理更多令牌的同时,让大型模型处理较少的令牌。这些不同规模的模型并未增加参数量,因为它们共享参数。我们通过在ImageNet256×256、UCF101和Kinetics600上进行严格的实验,展示了所提方法在图像/视频生成和帧预测方面的有效性。我们的实验表明,与基线方法相比,我们的模型在几乎少3倍的计算成本下获得了具有竞争力的性能。