摘要
基于文本控制人体运动是计算机视觉领域的一项重要挑战。传统方法通常依赖于整体的动作描述进行运动合成,难以捕捉局部身体部位的细微动作,从而限制了对特定动作进行隔离和操控的能力。为了解决这个问题,我们提出了一种新颖的运动表示方法,该方法从运动学的角度将运动分解成不同的身体关节组运动及其相互作用。我们设计了一个自动数据集收集流程,通过加入细粒度的局部关节组运动和交互描述来增强现有的文本-运动基准。为了弥合文本和运动领域之间的差距,我们引入了一种分层运动语义方法,逐步将关节层面的交互信息融合到全局动作层面的语义中,以实现模态对齐。利用这种层次结构,我们引入了一种由粗到精的运动合成过程,用于各种生成和编辑的下游应用。我们的定量和定性实验表明,所提出的方法通过改进关节空间理解来增强文本-运动检索,并能够实现更精确的关节运动生成和控制。项目页面:{\small\url{https://andypinxinliu.github.io/KinMo/}}