LLM2D

摘要

帧间建模是视频帧插值 (VFI) 生成中间帧的关键。当前的方法主要依赖于卷积或基于注意力的模型，这些模型通常缺乏足够的感受野或导致巨大的计算开销。最近，选择性状态空间模型 (S6) 应运而生，专门针对长序列建模，提供线性复杂度和数据相关建模能力。在本文中，我们提出了 VFIMamba，一种新颖的帧插值方法，通过利用 S6 模型实现高效且动态的帧间建模。我们的方法引入了混合 SSM 模块 (MSB)，该模块最初以交错方式重新排列来自相邻帧的标记，然后应用多方向 S6 建模。这种设计有助于在帧之间有效地传输信息，同时保持线性复杂度。此外，我们引入了一种新颖的课程学习策略，该策略逐步培养跨不同运动幅度的帧间动态建模能力，充分释放 S6 模型的潜力。实验结果表明，我们的方法在各种基准测试中取得了最先进的性能，尤其是在高分辨率场景中表现出色。特别是在 X-TEST 数据集上，VFIMamba 在 4K 帧和 2K 帧上分别实现了 0.80 dB 和 0.96 dB 的显著改进。