摘要
帧间建模是视频帧插值 (VFI) 生成中间帧的关键。当前的方法主要依赖于卷积或基于注意力的模型,这些模型通常缺乏足够的感受野或导致巨大的计算开销。最近,选择性状态空间模型 (S6) 应运而生,专门针对长序列建模,提供线性复杂度和数据相关建模能力。在本文中,我们提出了 VFIMamba,一种新颖的帧插值方法,通过利用 S6 模型实现高效且动态的帧间建模。我们的方法引入了混合 SSM 模块 (MSB),该模块最初以交错方式重新排列来自相邻帧的标记,然后应用多方向 S6 建模。这种设计有助于在帧之间有效地传输信息,同时保持线性复杂度。此外,我们引入了一种新颖的课程学习策略,该策略逐步培养跨不同运动幅度的帧间动态建模能力,充分释放 S6 模型的潜力。实验结果表明,我们的方法在各种基准测试中取得了最先进的性能,尤其是在高分辨率场景中表现出色。特别是在 X-TEST 数据集上,VFIMamba 在 4K 帧和 2K 帧上分别实现了 0.80 dB 和 0.96 dB 的显著改进。