摘要
arXiv:2505.00335v1 Announce Type: cross
摘要:隐式神经表示(INR)已在多种领域取得了成功应用。为了在实际生活中使用INR,加速训练变得尤为重要。在用于视频应用的INR领域,最先进的方法采用网格型参数编码,并且相对于其前身实现了更快的编码速度。然而,这种网格使用的做法不考虑视频的动态特性,导致了可训练参数的冗余使用。因此,它在参数效率和比特率方面明显低于不使用参数编码的NeRV风格的方法。为了应对这个问题,我们提出了时序一致调制的神经视频表示(NVTM)这一新颖框架,它可以捕捉视频的动态特性。通过将时空3D视频数据分解为具有流信息的2D网格集合,NVTM能够快速学习视频表示并高效使用参数。我们的框架允许一次性处理时间上对应的像素点,从而实现较高的编码速度,尤其是在与NeRV风格方法相比时,速度提高了3倍以上。此外,它在UVG(动态)上平均提高了1.54dB/0.019的PSNR/LPIPS(即使参数减少了10%),在MCL-JCV(动态)上平均提高了1.84dB/0.013的PSNR/LPIPS,优于之前的网格型工作。通过将其扩展到压缩任务,我们展示了与视频压缩标准(H.264,HEVC)和最近的视频压缩INR方法相媲美的表现。此外,我们进行了广泛实验,展示了我们的算法在各种任务中的优越性能,涵盖超分辨率、帧插值和视频补全。项目页面为 https://sujiikim.github.io/NVTM/。