摘要
基于Transformer的生成模型驱动的语音手势生成技术是虚拟人创建领域一个快速发展的方向。然而,现有模型面临着二次时间和空间复杂度带来的巨大挑战,限制了其可扩展性和效率。为了解决这些限制,我们引入了DiM-Gestor,这是一个利用Mamba-2架构的创新端到端生成模型。DiM-Gestor具有双组件框架:(1)模糊特征提取器和(2)语音到手势映射模块,两者都基于Mamba-2构建。模糊特征提取器与中文预训练模型和Mamba-2集成,自主提取隐含的、连续的语音特征。这些特征被合成到一个统一的潜在表示中,然后由语音到手势映射模块处理。该模块采用增强型自适应层归一化(AdaLN)的Mamba-2机制,对所有序列标记统一应用变换。这使得能够精确地建模语音特征和手势动态之间的细微相互作用。我们利用扩散模型来训练和推断多样化的姿态输出。在最新发布的中文伴音手势数据集上进行的大量主观和客观评估证实了我们提出的模型的有效性。与基于Transformer的架构相比,评估结果表明,我们的方法获得了具有竞争力的结果,并显著降低了内存使用量(约2.4倍),并将推理速度提高了2到4倍。此外,我们还发布了CCG数据集,这是一个中文伴音手势数据集,包含15.97小时(五个场景下的六种风格)的由专业中国电视广播员表演的3D全身骨骼手势运动。