LLM2D

摘要

arXiv:2505.00335v1 Announce Type: cross 摘要：隐式神经表示（INR）已在多种领域取得了成功应用。为了在实际生活中使用INR，加速训练变得尤为重要。在用于视频应用的INR领域，最先进的方法采用网格型参数编码，并且相对于其前身实现了更快的编码速度。然而，这种网格使用的做法不考虑视频的动态特性，导致了可训练参数的冗余使用。因此，它在参数效率和比特率方面明显低于不使用参数编码的NeRV风格的方法。为了应对这个问题，我们提出了时序一致调制的神经视频表示（NVTM）这一新颖框架，它可以捕捉视频的动态特性。通过将时空3D视频数据分解为具有流信息的2D网格集合，NVTM能够快速学习视频表示并高效使用参数。我们的框架允许一次性处理时间上对应的像素点，从而实现较高的编码速度，尤其是在与NeRV风格方法相比时，速度提高了3倍以上。此外，它在UVG（动态）上平均提高了1.54dB/0.019的PSNR/LPIPS（即使参数减少了10%），在MCL-JCV（动态）上平均提高了1.84dB/0.013的PSNR/LPIPS，优于之前的网格型工作。通过将其扩展到压缩任务，我们展示了与视频压缩标准（H.264，HEVC）和最近的视频压缩INR方法相媲美的表现。此外，我们进行了广泛实验，展示了我们的算法在各种任务中的优越性能，涵盖超分辨率、帧插值和视频补全。项目页面为 https://sujiikim.github.io/NVTM/。