LLM2D

摘要

arXiv:2501.11043v2 通告类型: replace-cross 摘要: 在现有的连续空间-时间视频超分辨率（C-STVSR）方法中，虽然它们采用隐式神经表示（INR）进行连续编码，但往往难以捕捉视频数据的复杂性，依赖简单的坐标拼接和预训练的光流网络来进行运动表示。有趣的是，我们发现与常见的观察相反，增加位置编码不仅没有改进性能，反而降低了性能。当与预训练的光流网络结合时，这一问题尤为明显，这可以限制模型的灵活性。为了应对这些挑战，我们提出了一种BF-STVSR框架，该框架包含两个专门为更好地表示视频的空间和时间特征而设计的关键模块：1) B-样条映射器，用于平滑的时间插值，2) 傅里叶映射器，用于捕捉主导的空间频率。我们的方法在多种指标上，包括PSNR和SSIM上达到了最新水平，展示了增强的空间细节和自然的时间一致。我们的代码可在 https://github.com/Eunjnnn/bfstvsr 获取。