LLM2D
面向通用身份保留视频合成
Concat-ID: Towards Universal Identity-Preserving Video Synthesis
作者: Yong Zhong, Zhuoyi Yang, Jiayan Teng, Xiaotao Gu, Chongxuan Li
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2503.14151v2

摘要

arXiv:2503.14151v2 通告类型: replace-cross 摘要:我们提出了Concat-ID,这是一种统一的身份保留视频生成框架。Concat-ID 使用变分自编码器提取图像特征,将这些特征与视频潜在变量沿序列维度进行拼接,仅利用 3D 自注意力机制,无需额外模块。引入了一种新颖的跨视频配对策略和多阶段训练程序,以平衡身份一致性与面部可编辑性,同时增强视频的自然度。广泛的实验证明了Concat-ID 在单身份和多身份生成方面优于现有方法,并且能够无缝扩展到多主体场景中,包括虚拟试穿和背景可控生成。Concat-ID 建立了身份保留视频合成的新基准,提供了一种具有多样性和扩展性的解决方案,适用于广泛的应用场景。