LLM2D

摘要

arXiv:2502.02063v1 类别: cross 摘要: 生成建模和标记的最近 advances 在驱动从文本到动作生成的重大进展中发挥了重要作用，这提高了生成动作的质量和真实性。然而，有效地利用文本信息进行条件动作生成仍然是一个开放的挑战。我们观察到，当前的方法主要依赖于固定长度的文本嵌入（如CLIP）进行全局语义注入，难以捕捉人类动作的复合性质，导致生成动作的质量和可控性不足。为了解决这一限制，我们提出了复合感知语义注入机制（CASIM），该机制包括一个复合感知语义编码器和一个文本-动作对齐器，用于学习文本和动作标记之间的动态对应关系。值得注意的是，CASIM 不依赖于特定的模型和表示，可以与自回归方法和基于扩散的方法轻松集成。在 HumanML3D 和 KIT 基准上的实验表明，CASIM 在多种最先进的方法中一致地提高了动作质量、文本-动作对齐和检索分数。进一步的定性分析还强调了我们的复合感知方法优于固定长度语义注入的优势，使得从文本提示进行精确动作控制以及对未见过的文本输入具有更强的泛化能力。