LLM2D

摘要

arXiv:2505.01182v2 生成类型: replace-cross 摘要: 文本到动作生成最近吸引了显著的研究兴趣，主要集中在生成空白背景中的人体动作序列。然而，人体动作通常发生在多样的3D场景中，这促使人们探索场景感知的文本到动作生成方法。现有的场景感知方法通常依赖于多样的3D场景中的大规模真实动作序列，这由于成本高昂而带来了实际挑战。为了缓解这一挑战，我们首次提出了一个无训练的场景感知文本到动作框架，命名为TSTMotion，它有效地赋予了预训练的空白背景动作生成器场景感知能力。具体而言，基于给定的3D场景和文本描述，我们采用基础模型共同推理、预测和验证场景感知的动作指导。然后，将动作指导通过两种修改融入空白背景动作生成器中，从而生成场景感知的文本驱动动作序列。大量的实验展示了我们所提出的框架的有效性和通用性。我们在项目页面发布了我们的代码：[GitHub链接](https://tstmotion.github.io/)。