LLM2D

摘要

arXiv:2504.04634v1 公告类型：交叉摘要：最近在舞蹈生成方面的进展使得自动合成3D舞蹈动作成为可能。然而，现有的方法仍然难以生成高保真度的舞蹈序列，这些序列能同时提供出色的逼真度、精准的舞蹈与音乐同步、高度的动作多样性以及物理上的合理性。此外，现有的方法缺乏根据多样化的指导信号编辑舞蹈序列的能力，例如音乐提示、姿势约束、动作标签和流派描述，这极大地限制了它们的创造性和适应性。与现有的方法不同，DanceMosaic 允许快速且高保真度的舞蹈生成，同时支持多模态动作编辑。具体而言，我们提出了一种多模态遮蔽动作模型，将文本到动作模型与音乐和姿势适配器融合，通过逐步生成遮蔽训练来学习从多样化的指导信号到高质量舞蹈动作序列的概率映射。为了进一步提高动作生成质量，我们提出了一种多模态无分类器引导和推理时优化机制，进一步强化了生成动作与多模态指导信号之间的对齐。广泛的实验表明，我们的方法在舞蹈生成方面建立了新的最佳性能，在现有的方法中显著提高了生成质量和可编辑性。