摘要
arXiv:2504.08181v1 宣告类型: cross
摘要: 人类中心的运动控制在视频生成中仍然是一个关键挑战,特别是在像格莱美Glambot经典时刻这样的场景中同时控制摄像机运动和人类姿态时。尽管最近的视频扩散模型已经取得了显著进展,但现有方法在运动表示有限和摄像机与人类运动控制不足集成方面仍存在困难。在此项工作中,我们提出了TokenMotion,这是一种基于DiT的视频扩散框架,能够细粒度地控制摄像机运动、人类运动及其联合交互。我们将摄像机轨迹和人类姿态表示为时空令牌,以实现局部控制粒度。我们的方法引入了一个统一建模框架,采用了解耦和融合策略,并通过一个面向人类的动态掩码有效地处理了组合运动信号的空间和时间变化特性。通过广泛的实验,我们展示了TokenMotion在文本到视频和图像到视频范式中的有效性,一致地超过了当前最先进的方法在人类中心运动控制任务中的表现。我们的工作代表了可控视频生成的一个重要进步,特别是对于创意生产应用具有重要意义。