摘要
arXiv:2505.05001v1 跨类型发布
摘要:我们将视频缝合重新定向到一个新兴问题,称为变形抖动(warp shake),该问题揭示了在将图像缝合扩展到视频缝合时,由于顺序不平滑的变形导致的时间内容抖动。即使输入视频是稳定的,缝合视频也必然会引发不希望的变形抖动并影响视觉体验。为了解决这一问题,我们提出了一种新颖的视频缝合框架 StabStitch++,旨在通过无监督学习同时实现空间缝合和时间稳定性。首先,不同于现有的基于学习的图像缝合解决方案通常将一个图像拉伸以与另一个图像对齐,我们假设一个虚拟中间平面,并将原始图像平面投影到该平面上。具体来说,我们设计了一个可微分的双向分解模块,将仿射变换解耦,并将其纳入我们的空间变形中,均匀地将对齐负担和投影失真分布在两个视角上。接着,借鉴视频稳定中相机路径的做法,我们通过精心整合空间和时间变形推导出了视频缝合中的拼接轨迹的数学表达式。最后,我们提出了一个变形平滑模型,通过混合损失来生成稳定缝合的视频,该损失同时鼓励内容对齐、轨迹平滑和在线协作。与 StabStitch 相比,StabStitch++ 不妥协,同时优化了这两方面,尤其是在在线模式下。为了建立评估基准并训练学习框架,我们构建了一个包含丰富相机运动和场景多样性的视频缝合数据集。实验表明,StabStitch++ 在缝合性能、鲁棒性和效率方面超越了当前的解决方案,通过构建实时在线视频缝合系统为该领域带来了显著的进步。