LLM2D
Allo-AVA:一个用于自中心化身手势动画的大规模多模态对话式人工智能数据集
Allo-AVA: A Large-Scale Multimodal Conversational AI Dataset for Allocentric Avatar Gesture Animation
作者: Saif Punjwani, Larry Heck
发布日期: 10/23/2024
arXiv ID: oai:arXiv.org:2410.16503v1

摘要

高质量的多模态训练数据稀缺严重阻碍了虚拟环境中对话式AI逼真化身动画的创建。现有的数据集往往缺乏语音、面部表情和身体动作之间错综复杂的同步,而这些同步是人类自然交流的特征。为了解决这一关键差距,我们引入了Allo-AVA,这是一个大规模数据集,专门为异中心(第三人称视角)环境下的文本和音频驱动的化身手势动画而设计。Allo-AVA包含约1,250小时的各种视频内容,包括音频、文字记录和提取的关键点。Allo-AVA独特地将这些关键点映射到精确的时间戳,从而能够准确地复制人类动作(身体和面部手势)与语音同步。这种全面的资源能够开发和评估更自然、更具上下文感知的化身动画模型,有可能改变从虚拟现实到数字助理的各种应用。