摘要
当前用于人体图像动画的扩散模型难以确保身份(ID)一致性。本文提出了StableAnimator,这是一个首个端到端保持ID一致性的视频扩散框架,它无需任何后处理即可合成高质量视频,其条件是参考图像和一系列姿态。StableAnimator基于视频扩散模型构建,包含精心设计的训练和推理模块,力求身份一致性。特别是,StableAnimator首先分别使用现成的提取器计算图像和面部嵌入,并通过使用全局内容感知的面部编码器与图像嵌入交互来进一步细化面部嵌入。然后,StableAnimator引入了一种新颖的分布感知ID适配器,通过对齐来保持ID,同时防止时间层造成的干扰。在推理过程中,我们提出了一种基于汉密尔顿-雅可比-贝尔曼(HJB)方程的新型优化方法,以进一步提高面部质量。我们证明了解决HJB方程可以集成到扩散去噪过程中,所得解约束了去噪路径,从而有利于ID保持。在多个基准测试上的实验结果定性和定量地证明了StableAnimator的有效性。