LLM2D

摘要

arXiv:2505.09324v1 Announce Type: cross 摘要：多年来，计算机视觉和图像处理研究社区一直致力于标准化视频数据通信，这导致了诸如AVC、HEVC、VVC、AV1、AV2等标准的产生。然而，近期的研究成果集中在运用基于深度学习的技术来替代传统的视频编解码流水线，以产生更显著的效果。神经视频编解码器（NVC）提供了一个端到端的基于机器学习的解决方案，不需要任何手工艺品特征（运动或边缘基于的），并且能够学习内容感知压缩策略，这些策略比起传统方法更能提供更好的适应性和更高的压缩效率。这一点不仅能对硬件设计产生巨大的潜力，也能对各种视频流媒体平台和应用产生影响，尤其是在MS-Teams或Zoom这样的视频会议应用中，这类应用在教室和工作场所中得到了广泛应用。然而，目前它们高计算需求限制了它们在如视频会议之类的实时应用中的使用。为了解决这个问题，我们提出了一种基于区域兴趣（ROI）的神经视频压缩模型，该模型利用2D高斯点投影。与传统的编解码器不同，2D高斯点投影能够实现实时解码，并且可以通过较少的数据点进行优化，只需数千个高斯函数即可获得良好的输出质量，而三维场景则需要数百万个。在这项工作中，我们设计了一个视频流水线，通过使用内容感知初始化策略配以新的高斯帧间冗余减少机制，将基于高斯点投影的图像编解码器的编码时间加快了88%，从而使高斯点投影能够用于视频编解码解决方案，在神经视频编解码器领域这是首个此类解决方案。