LLM2D

摘要

arXiv:2409.01876v3 宣布类型: replace-cross 摘要：基于扩散的视频生成技术取得了显著的进步，促进了人类动画研究的大量涌现。然而，这些研究大多数局限于同模态驱动设置，跨模态的人体动画探索仍然相对不足。本文中，我们提出了一个端到端的以音频驱动的人体动画框架，确保手部完整性、身份一致性以及自然运动。CyberHost的关键设计是区域编码注意力机制，该机制通过整合精细粒度的局部特征与学习到的运动模式先验，提高了人脸和手部动画的生成质量。此外，我们还开发了一套以人体先验为导向的训练策略，包括身体运动图、手部清晰度评分、姿态对齐参考特征和局部增强监督，以提高合成结果。据我们所知，CyberHost是第一个能够实现人体动画零样本视频生成的端到端音频驱动的人类扩散模型。广泛的实验表明，CyberHost在定量和定性方面均超越了先前的工作。