摘要
arXiv:2501.18801v1 类型: cross
摘要:图像动画已经成为多模态研究的一个有前景的领域,重点关注从参考图像生成视频。尽管先前的工作主要强调通过文本和音乐生成通用视频,但以音乐驱动的舞蹈视频生成仍然未被广泛探索。在这篇文章中,我们介绍了MuseDance,这是一种创新的端到端模型,能够使用音乐和文本输入对参考图像进行动画处理。这种双输入使MuseDance能够生成符合文本描述,并且角色动作与音乐同步的个性化视频。不同于现有的方法,MuseDance不需要复杂的动作指导输入,例如姿态或深度序列,从而使得不同专业水平的用户都能够进行灵活且富有创意的视频生成。为了推进该领域的研究,我们提供了一个新的多模态数据集,其中包括2,904个舞蹈视频及其对应的背景音乐和文本描述。我们的方法利用扩散方法实现了稳健的推广性、精确的控制和时间一致性,为音乐驱动的图像动画任务设定了新的基准。