摘要
arXiv:2504.01724v2 宣布类型: replace-cross
摘要: 尽管基于图像的人体动画方法在实现逼真的身体和面部动作合成方面取得了进展,但在细节控制、多尺度适应性和长时间时间连贯性方面仍存在关键差距。这导致它们的表达能力和鲁棒性较低。我们提出了一种基于扩散变换器(DiT)的框架DreamActor-M1,结合混合引导来克服这些限制。在动作引导方面,我们的混合控制信号结合了隐式面部表示、3D 头球和3D 身体骨架,实现了面部表情和身体动作的稳健控制,同时生成具有表现力且保持身份的动画。在尺度适应方面,为了处理从肖像到全身视图的各种身体姿态和图像尺度,我们采用了一种逐步训练策略,使用不同分辨率和尺度的数据。在外观引导方面,我们将来自连续帧的动作模式与互补的视觉参考相结合,确保在复杂动作中未见过的区域具有长时间连贯性。实验表明,我们的方法超过了现有的最佳工作,在肖像、上半身和全身生成方面提供了具有高表现力的结果,并且长期一致性稳健。项目页面: https://grisoon.github.io/DreamActor-M1/。