摘要
arXiv:2504.01724v3 通告类型: replace-cross
摘要: 虽然基于图像的人体动画方法实现了逼真的身体和面部运动合成,但在细粒度的整体可控性、多尺度适应性和长期时间连贯性方面仍存在关键差距,这导致了其表达能力和鲁棒性较低。我们提出了一种基于扩散变换器(DiT)的框架,DreamActor-M1,该框架通过混合指导克服了这些局限性。在动作指导方面,我们的混合控制信号结合了隐式的面部表示、3D 头球和3D 身体骨架,实现了对面部表情和身体运动的稳健控制,同时生成富有表现力且保持身份的动画。在尺度适应方面,为了处理从肖像到全身视图的各种身体姿态和图像尺度,我们采用了一种使用不同分辨率和尺度的数据进行渐进式训练的策略。在外观指导方面,我们将来自连续帧的动作模式与补充视觉参考相结合,确保在复杂运动中未知区域的长期时间连贯性。实验表明,我们的方法优于现有的最新技术,提供了肖像、上半身和全身生成富有表现力的结果,并保持了鲁棒的长期一致性。项目页面: https://grisoon.github.io/DreamActor-M1/。