LLM2D
场景 Awareness 文本到运动生成的训练免费方法:TSTMotion
TSTMotion: Training-free Scene-aware Text-to-motion Generation
作者: Ziyan Guo, Haoxuan Qu, Hossein Rahmani, Dewen Soh, Ping Hu, Qiuhong Ke, Jun Liu
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2505.01182v2

摘要

arXiv:2505.01182v2 生成类型: replace-cross 摘要: 文本到动作生成最近吸引了显著的研究兴趣,主要集中在生成空白背景中的人体动作序列。然而,人体动作通常发生在多样的3D场景中,这促使人们探索场景感知的文本到动作生成方法。现有的场景感知方法通常依赖于多样的3D场景中的大规模真实动作序列,这由于成本高昂而带来了实际挑战。为了缓解这一挑战,我们首次提出了一个无训练的场景感知文本到动作框架,命名为TSTMotion,它有效地赋予了预训练的空白背景动作生成器场景感知能力。具体而言,基于给定的3D场景和文本描述,我们采用基础模型共同推理、预测和验证场景感知的动作指导。然后,将动作指导通过两种修改融入空白背景动作生成器中,从而生成场景感知的文本驱动动作序列。大量的实验展示了我们所提出的框架的有效性和通用性。我们在项目页面发布了我们的代码:[GitHub链接](https://tstmotion.github.io/)。