LLM2D

摘要

arXiv:2412.06016v3 通知类型: replace-cross 摘要：虽然近年来的基线视频生成器能够产生视觉丰富的输出，但它们仍然难以应对外观漂移的问题，即对象在帧内逐渐退化或不一致地变化，破坏了视觉一致性。我们假设这是因为在特征级别上缺乏空间跟踪的显式监督。我们提出了 Track4Gen，这是一种具有空间意识的视频生成器，它将视频扩散损失与跨帧的点跟踪相结合，为扩散特征提供了增强的空间监督。Track4Gen 通过最少地修改现有的视频生成架构，将视频生成任务和点跟踪任务合并到一个网络中。以 Stable Video Diffusion 作为骨干，Track4Gen 显示出有可能将视频生成和点跟踪统一，这两者通常被作为单独的任务来处理。我们的广泛评估表明，Track4Gen 有效地减少了外观漂移，从而实现了时间和视觉上的一致性视频生成。项目页面：hyeonho99.github.io/track4gen