LLM2D

摘要

高质量的多模态训练数据稀缺严重阻碍了虚拟环境中对话式AI逼真化身动画的创建。现有的数据集往往缺乏语音、面部表情和身体动作之间错综复杂的同步，而这些同步是人类自然交流的特征。为了解决这一关键差距，我们引入了Allo-AVA，这是一个大规模数据集，专门为异中心（第三人称视角）环境下的文本和音频驱动的化身手势动画而设计。Allo-AVA包含约1,250小时的各种视频内容，包括音频、文字记录和提取的关键点。Allo-AVA独特地将这些关键点映射到精确的时间戳，从而能够准确地复制人类动作（身体和面部手势）与语音同步。这种全面的资源能够开发和评估更自然、更具上下文感知的化身动画模型，有可能改变从虚拟现实到数字助理的各种应用。