摘要
arXiv:2412.17726v2 通知类型: 替换-交叉
摘要:近年来,视频自编码器(Video AEs)的发展显著提高了视频生成的质量和效率。本文中,我们提出了一个新颖且紧凑的视频自编码器VidTwin,将视频解耦为两个独立的潜在空间:结构潜在向量,捕捉总体内容和全局运动;动力学潜在向量,代表精细细节和快速运动。具体而言,我们的方法采用了编码器-解码器骨干网络,并附加了两个子模块以提取这些潜在空间。第一个子模块使用Q-Former提取低频运动趋势,随后通过下采样块去除冗余内容细节。第二个子模块沿空间维度平均潜在向量以捕捉快速运动。广泛的实验显示,VidTwin 在MCL-JCV数据集上实现了高重建质量(PSNR为28.14)和高达0.20%的压缩率,并且在下游生成任务中表现出高效性和有效性。此外,我们的模型展示了可解释性和可扩展性,为未来的视频潜在表示和生成研究铺平了道路。欲了解更多信息,请访问我们的项目页面:https://vidtwin.github.io/。