摘要
高质量的多模态训练数据稀缺严重阻碍了虚拟环境中对话式AI逼真化身动画的创建。现有的数据集往往缺乏语音、面部表情和身体动作之间错综复杂的同步,而这些同步是人类自然交流的特征。为了解决这一关键差距,我们引入了Allo-AVA,这是一个大规模数据集,专门为异中心(第三人称视角)环境下的文本和音频驱动的化身手势动画而设计。Allo-AVA包含约1,250小时的各种视频内容,包括音频、文字记录和提取的关键点。Allo-AVA独特地将这些关键点映射到精确的时间戳,从而能够准确地复制人类动作(身体和面部手势)与语音同步。这种全面的资源能够开发和评估更自然、更具上下文感知的化身动画模型,有可能改变从虚拟现实到数字助理的各种应用。