LLM2D
LLM 手势生成器:利用大型语言模型进行可扩展和可控的伴随语音手势合成
LLM Gesticulator: Leveraging Large Language Models for Scalable and Controllable Co-Speech Gesture Synthesis
作者: Haozhou Pang, Tianwei Ding, Lanshan He, Ming Tao, Lu Zhang, Qi Gan
发布日期: 10/23/2024
arXiv ID: oai:arXiv.org:2410.10851v2

摘要

在本研究中,我们提出了LLM Gesticulator,一个基于大型语言模型的音频驱动共语手势生成框架,该框架可以合成与输入音频节奏一致的全身动画,同时展现出自然的动作和可编辑性。与之前的工作相比,我们的模型展现出显著的可扩展性。随着主干LLM模型规模的增加,我们的框架在评估指标(即缩放规律)方面展现出成比例的改进。我们的方法还展现出强大的可控性,生成的姿势的内容和风格可以通过文本提示进行控制。据我们所知,LLM Gesticulator是第一个将LLM应用于共语生成任务的工作。通过现有的客观指标和用户研究评估表明,我们的框架优于先前的工作。