LLM2D

摘要

arXiv:2502.00382v1 宣告类型: cross 摘要: 近期视觉生成领域的进步在生成高质量内容方面取得了显著进展。然而，大多数方法都面临一个根本性问题——推理计算效率的瓶颈。这些算法往往需要多次遍历transformer模型以生成令牌或去噪输入。然而，在所有迭代过程中，模型大小保持一致，这使得计算成本高昂。在本项工作中，我们主要通过两个关键构想来解决这一问题——(a) 生成过程中的所有部分都需要相等的计算量并不必要，我们设计了一种解码时间模型扩展计划，以有效利用计算资源；(b) 我们可以缓存并重用一些计算。结合这两个构想，我们能够在使用较小模型处理更多令牌的同时，让大型模型处理较少的令牌。这些不同规模的模型并未增加参数量，因为它们共享参数。我们通过在ImageNet256×256、UCF101和Kinetics600上进行严格的实验，展示了所提方法在图像/视频生成和帧预测方面的有效性。我们的实验表明，与基线方法相比，我们的模型在几乎少3倍的计算成本下获得了具有竞争力的性能。