摘要
arXiv:2502.07239v1 Announce Type: 横向交流
摘要:伴随言语的手势生成对于创建逼真的虚拟角色并增强人机互动至关重要,尤其是在手势与言语同步方面。尽管近年来取得了进展,但现有方法在准确从音频中识别节奏或语义触发器并生成上下文相关的手势模式以及实现像素级的现实感方面仍存在问题。为了解决这些问题,我们提出了一种名为“上下文手势”的框架,通过三种创新组件来改进伴随言语的手势视频生成:(1)时间顺序的言语-手势对齐,该对齐连接了两种模态,(2)上下文相关的手势标记,它通过蒸馏将言语上下文融入到运动模式表示中,(3)结构感知的精炼模块,它利用边缘连接将手势关键点链接起来以改进视频生成。我们的大量实验表明,上下文手势不仅能够生成逼真且与言语对齐的手势视频,还支持长序列生成和视频手势编辑应用,如图1所示。项目页面:https://andypinxinliu.github.io/Contextual-Gesture/