摘要
本文提出了一种将动作转换为文本的算法 MotionScript,以及一种用于人体动作的自然语言表示。与之前的自然语言方法相比,MotionScript 提供了更详细、更准确的人体动作描述。大多数动作数据集侧重于基本的、定义明确的动作,表达方式的变化有限(例如,坐着、走路、运球)。但对于包含多种动作的表达性动作(例如,悲伤、跳舞),或对于标准动作捕捉数据集之外的动作(例如,风格化的行走、手语、与动物互动),需要更具体、更细粒度的自然语言描述。我们提出的 MotionScript 描述与现有的自然语言表示不同,因为它提供了详细的自然语言描述,而不是简单的动作标签或泛化的标题。据我们所知,这是首次尝试将 3D 动作翻译成自然语言描述,而无需训练数据。我们的实验表明,当将 MotionScript 描述应用于文本到动作的任务时,可以使大型语言模型生成复杂、以前从未见过的动作。更多示例、数据集和代码可在 https://pjyazdian.github.io/MotionScript 获取。