LLM2D

摘要

arXiv:2412.17726v2 通知类型: 替换-交叉摘要：近年来，视频自编码器（Video AEs）的发展显著提高了视频生成的质量和效率。本文中，我们提出了一个新颖且紧凑的视频自编码器VidTwin，将视频解耦为两个独立的潜在空间：结构潜在向量，捕捉总体内容和全局运动；动力学潜在向量，代表精细细节和快速运动。具体而言，我们的方法采用了编码器-解码器骨干网络，并附加了两个子模块以提取这些潜在空间。第一个子模块使用Q-Former提取低频运动趋势，随后通过下采样块去除冗余内容细节。第二个子模块沿空间维度平均潜在向量以捕捉快速运动。广泛的实验显示，VidTwin 在MCL-JCV数据集上实现了高重建质量（PSNR为28.14）和高达0.20%的压缩率，并且在下游生成任务中表现出高效性和有效性。此外，我们的模型展示了可解释性和可扩展性，为未来的视频潜在表示和生成研究铺平了道路。欲了解更多信息，请访问我们的项目页面：https://vidtwin.github.io/。