摘要
随着虚拟代理在人机交互中越来越普遍,实时生成逼真且符合语境的姿态仍然是一项重大挑战。虽然神经渲染技术在静态脚本方面取得了实质性进展,但其在人机交互中的适用性仍然有限。为了解决这个问题,我们引入了大型肢体语言模型(LBLMs)并提出了LBLM-AVA,这是一种新颖的LBLM架构,它将Transformer-XL大型语言模型与并行扩散模型相结合,以从多模态输入(文本、音频和视频)生成类人姿态。LBLM-AVA包含几个增强其姿态生成能力的关键组件,例如多模态到姿态的嵌入、具有重新定义的注意力机制的增强型序列到序列映射、用于姿态序列一致性的时间平滑模块以及用于增强真实感的基于注意力的细化模块。该模型在我们大型的专有开源数据集Allo-AVA上进行训练。LBLM-AVA在生成栩栩如生且符合语境的姿态方面取得了最先进的性能,Fr\'echet姿态距离(FGD)降低了30%,Fr\'echet初始距离比现有方法提高了25%。