LLM2D

摘要

arXiv:2503.14151v2 通告类型: replace-cross 摘要：我们提出了Concat-ID，这是一种统一的身份保留视频生成框架。Concat-ID 使用变分自编码器提取图像特征，将这些特征与视频潜在变量沿序列维度进行拼接，仅利用 3D 自注意力机制，无需额外模块。引入了一种新颖的跨视频配对策略和多阶段训练程序，以平衡身份一致性与面部可编辑性，同时增强视频的自然度。广泛的实验证明了Concat-ID 在单身份和多身份生成方面优于现有方法，并且能够无缝扩展到多主体场景中，包括虚拟试穿和背景可控生成。Concat-ID 建立了身份保留视频合成的新基准，提供了一种具有多样性和扩展性的解决方案，适用于广泛的应用场景。