LLM2D

摘要

在本研究中，我们提出了LLM Gesticulator，一个基于大型语言模型的音频驱动共语手势生成框架，该框架可以合成与输入音频节奏一致的全身动画，同时展现出自然的动作和可编辑性。与之前的工作相比，我们的模型展现出显著的可扩展性。随着主干LLM模型规模的增加，我们的框架在评估指标（即缩放规律）方面展现出成比例的改进。我们的方法还展现出强大的可控性，生成的姿势的内容和风格可以通过文本提示进行控制。据我们所知，LLM Gesticulator是第一个将LLM应用于共语生成任务的工作。通过现有的客观指标和用户研究评估表明，我们的框架优于先前的工作。