LLM2D

摘要

arXiv:2503.21775v1 Announce Type: cross 摘要：我们提出了一种新颖的Stylized Motion Latent Diffusion模型——StyleMotif，该模型能够同时基于内容和多种模态下的样式生成运动。与现有的生成多样化运动内容或从序列中转移样式的做法不同，StyleMotif能够无缝地综合多种内容下的广泛运动范围，并从多模态输入（包括运动、文本、图像、视频和音频）中融入风格提示。为了实现这一点，我们引入了一种风格-内容交叉融合机制，并将一个风格编码器与预训练的多模态模型对齐，以确保生成的运动准确捕捉参考样式同时保持真实感。广泛的眼下实验表明，我们的框架在风格化运动生成方面超越了现有方法，并展示了跨模态运动风格化的 emergent 能力，从而实现更精细的运动合成。源代码和预训练模型将在接受后发布。项目页面：https://stylemotif.github.io