LLM2D

摘要

arXiv:2411.06685v2 分类类型: 替换交叉摘要：基于神经网络的视频表示（NeRV）简化了视频编解码过程并实现了快速解码速度，通过将视频内容编码到神经网络中，提出了有潜力的视频压缩解决方案。然而，现有的工作忽略了这些方法重建的视频缺乏高频细节的关键问题。为了解决这一问题，本文引入了一种增强的混合神经网络表示网络，我们的方法侧重于利用高频信息以提高网络合成细部细节的能力。具体来说，我们设计了一个小波高频编码器，其中包含了小波频率分解（WFD）模块以生成高频特征嵌入。接下来，我们设计了高频特征调制（HFM）模块，该模块利用提取的高频嵌入来增强解码器的拟合过程。最后，结合精细的谐波解码器模块和动态加权频率损失，我们进一步减少了高频信息丢失的可能性。在Bunny和UVG数据集上的实验表明，我们的方法优于其他方法，在细节保留和压缩性能方面表现出显著的提升。