摘要
arXiv:2504.01724v1 Announce Type: cross
摘要:虽然基于图像的人体动画方法在实现逼真的身体和面部运动合成方面取得了进展,但在精细的整体可控性、多尺度适应性和长时间时间一致性方面仍存在关键差距,这导致了其表达能力和鲁棒性的不足。我们提出了一种基于扩散转换器(DiT)的框架DreamActor-M1,结合混合指导以克服这些限制。在运动指导方面,我们的混合控制信号整合了显式的面部表示、3D头部球体和3D身体骨架,实现了面部表情和身体动作的鲁棒控制,并产生了具有表现力且保留身份的动画。在尺度适应方面,为了处理从肖像到全身视角的各种身体姿态和图像尺度,我们采用了使用不同分辨率和尺度数据的逐步训练策略。在外观指导方面,我们将顺序帧中的运动模式与补充的视觉参考相结合,确保在复杂运动过程中不可见区域的时间一致性。实验表明,我们的方法比现有的先进工作表现更优,提供具有表现力的肖像、上半身和全身生成结果,并具有鲁棒的长时间一致性。项目页面:https://grisoon.github.io/DreamActor-M1/。