LLM2D

摘要

视频恢复面临的一大挑战是建模由运动控制的视频帧的转换动态。本工作提出了一种名为 TURTLE 的模型，用于学习截断因果历史模型，以实现高效且高性能的视频恢复。与传统方法并行处理一系列上下文帧不同，TURTLE 通过将输入帧潜在表示的截断历史存储并总结为一个不断发展的历史状态来提高效率。这是通过一种复杂的基于相似性的检索机制实现的，该机制隐式地考虑了帧间运动和对齐。TURTLE 中的因果设计通过状态记忆的历史特征实现了推理中的递归，同时允许通过采样截断视频片段进行并行训练。我们在多个视频恢复基准任务上报告了新的最先进结果，包括视频去雪、夜间视频去雨、视频雨滴和雨痕去除、视频超分辨率、真实世界和合成视频去模糊以及盲视频去噪，同时与所有这些任务上现有的最佳上下文方法相比，降低了计算成本。