LLM2D

摘要

arXiv:2505.08293v1 类型: cross 摘要: 从音频生成涵盖面部、身体、手部和全局运动的全身人类手势是一项有价值但具有挑战性的任务，尤其是在虚拟化身创建中。现有的系统专注于从输入音频中逐帧分词人体手势，并预测每帧的手势标记。然而，观察到一个现象，即定义为粒度的完整表达性人体手势所需的帧数因不同的手势模式而异。现有的系统由于其手势标记的固定粒度而无法建模这些手势模式。为了解决这个问题，我们提出了一种名为Multi-Granular Gesture Generator (M3G) 的新颖框架，用于基于音频的整体手势生成。在M3G中，我们提出了一种新颖的Multi-Granular VQ-VAE (MGVQ-VAE)来分词运动模式并从不同的时间粒度重构运动序列。随后，我们提出了一个多粒度标记预测器，从音频中提取多粒度信息并预测相应的运动标记。然后，M3G使用MGVQ-VAE从预测的标记重构人体手势。客观和主观实验均表明，我们提出的M3G框架在生成自然且表达性强的全身人类手势方面优于现有最先进的方法。