LLM2D
Track4Gen: 教视频扩散模型跟踪点以改善视频生成
Track4Gen: Teaching Video Diffusion Models to Track Points Improves Video Generation
作者: Hyeonho Jeong, Chun-Hao Paul Huang, Jong Chul Ye, Niloy Mitra, Duygu Ceylan
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2412.06016v3

摘要

arXiv:2412.06016v3 通知类型: replace-cross 摘要:虽然近年来的基线视频生成器能够产生视觉丰富的输出,但它们仍然难以应对外观漂移的问题,即对象在帧内逐渐退化或不一致地变化,破坏了视觉一致性。我们假设这是因为在特征级别上缺乏空间跟踪的显式监督。我们提出了 Track4Gen,这是一种具有空间意识的视频生成器,它将视频扩散损失与跨帧的点跟踪相结合,为扩散特征提供了增强的空间监督。Track4Gen 通过最少地修改现有的视频生成架构,将视频生成任务和点跟踪任务合并到一个网络中。以 Stable Video Diffusion 作为骨干,Track4Gen 显示出有可能将视频生成和点跟踪统一,这两者通常被作为单独的任务来处理。我们的广泛评估表明,Track4Gen 有效地减少了外观漂移,从而实现了时间和视觉上的一致性视频生成。项目页面:hyeonho99.github.io/track4gen