摘要
arXiv:2502.02063v1 类型: cross
摘要: 生成建模和令牌化领域的近期进展推动了文本到运动生成的显著进步,提高了生成运动的质量和逼真度。然而,有效地利用文本信息进行条件运动生成仍然是一个开放的挑战。我们观察到,当前的方法主要依赖固定长度的文本嵌入(如CLIP)进行全局语义注入,难以捕捉人类运动的复合性质,导致生成的运动质量不佳和可控性差。为了解决这一局限性,我们提出了复合感知语义注射机制(CASIM),该机制包括一个复合感知语义编码器和一个文本-运动对齐器,用于学习文本和运动令牌之间的动态对应关系。值得注意的是,CASIM 对模型和表示形式是通用的,可以与自回归和基于扩散的方法方便地集成。在HumanML3D和KIT基准测试上进行的实验表明,CASIM 一致地提高了运动质量、文本-运动对齐和检索得分,超过了最先进的方法。进一步的定性分析还突出了我们复合感知方法的优势,这种方法比固定长度语义注入在从文本提示进行精确的运动控制和对未见过的文本输入有更好的泛化能力方面更为优越。