摘要
arXiv:2504.04126v1 类型: cross
摘要:从单张图像生成具有高质量视觉表现和精确控制的人类视频是一项具有挑战性的任务,尤其是在涉及多名个体和物体交互的复杂场景中更为如此。现有方法虽然在单人案例中效果显著,但在处理涉及多身份的复杂交互时往往失效,因为它们难以正确关联每个人的外观和姿态,并且难以建模3D感知的动力学分布。为了解决这些问题,我们提出了一种名为结构化视频扩散的新框架,专门用于生成真实的多人视频。我们的方法引入了两大核心创新:身份特定嵌入以保持个体之间的外观一致性,以及一种结构化学习机制,该机制结合深度和表面法线线索以建模人类与物体的交互。此外,我们还扩展了现有的人类视频数据集,新增了25,000个包含多样化的多人和物体交互场景的视频,为训练提供了坚实的基础。实验结果表明,结构化视频扩散在生成具有生动且连贯性的多人视频方面表现优异,特别是在具有动态和丰富交互的情景下,推动了以人类为中心的视频生成技术的发展。