LLM2D

摘要

arXiv:2505.07344v1 宣告类型: 交叉摘要: 在这项工作中，我们提出了GPDiT，这是一种生成预训练自回归扩散变换器，它在连续的潜在空间内统一了扩散模型和自回归模型的长程视频合成优势。与预测离散令牌不同，GPDiT 自回归地使用扩散损失预测未来的潜在帧，从而能够在帧之间自然地建模运动动态和语义一致性。这种连续的自回归框架不仅提高了生成质量，还赋予了模型表示能力。此外，我们引入了一种轻量级的因果注意力变体和一个基于旋转的时间条件机制，提高了训练和推理的效率。广泛的实验表明，GPDiT 在视频生成质量、视频表示能力和少样本学习任务中都取得了很好的性能，强调了其作为连续空间中视频建模有效框架的潜力。