摘要
arXiv:2505.07344v2 发布类型: replace-cross
摘要: 在这项工作中,我们提出了GPDiT,这是一种生成预训练自回归扩散变换器,它在连续的潜在空间内统一了扩散模型和自回归模型的优势,用于长程视频合成。GPDiT 不是预测离散的标记,而是使用扩散损失自回归地预测未来的潜在帧,从而能够在帧间建模自然的运动动态和语义一致性。这种连续的自回归框架不仅提高了生成质量,还赋予模型表示能力。此外,我们引入了一种轻量级的因果注意力变体和一种基于旋转的时间条件机制,这两种机制分别提高了训练和推理的效率。广泛的实验证明,GPDiT 在视频生成质量、视频表示能力和少样本学习任务中表现出色,突显了其作为连续空间中视频建模的有效框架的潜力。