摘要
arXiv:2505.02192v1 宣告类型: cross
摘要: 针对身份和动作连贯性的预训练大规模模型进行定制化的文本到视频生成 recently 获得了广泛关注。现有工作通常遵循孤立定制的范式,其中主体身份或动作动态是单独定制的。然而,这种范式完全忽略了身份和动作之间固有的相互约束和协同依赖性,导致在整个生成过程中产生身份-动作冲突,系统地降低了生成质量。为了解决这一问题,我们引入了 DualReal,这是一个新颖的框架,采用自适应联合训练来协作构建维度之间的依赖关系。具体而言,DualReal 由两个单元组成:(1) 双适应机制动态选择训练阶段(即身份或动作),由冻结的维度先验引导当前信息,并采用正则化策略避免知识泄露;(2) 阶段调配控制器利用去噪阶段和扩散变换器的深度来根据不同维度的自适应粒度进行引导,在各个阶段避免冲突,最终实现身份和动作模式的无损融合。我们构建了一个比现有方法更为全面的基准。实验结果显示,DualReal 在平均上将 CLIP-I 和 DINO-I 指标提高了 21.7% 和 31.8%,并且在几乎所有动作质量指标上取得了最佳性能。