LLM2D

摘要

arXiv:2504.14509v2 通知类型: replace-cross 摘要：在本文中，我们介绍了DreamID，一种基于扩散的面部替换模型，该模型在身份相似性、属性保留、图像保真度和快速推断速度方面达到了很高的水平。与传统的面部替换训练过程不同，后者往往依赖于隐式监督，并且难以达到满意的结果。DreamID 通过构建三重ID组数据建立了明确的面部替换监督，显著增强了身份相似性和属性保留。扩散模型的迭代性质在利用高效图像空间损失函数时提出了挑战，因为在训练过程中执行耗时的多步采样以获得生成的图像是不切实际的。为了解决这一问题，我们利用了加速扩散模型SD Turbo，将推断步骤减少为单次迭代，从而可以进行高效的像素级端到端训练，并且带有明确的三重ID组监督。此外，我们提出了一种改进的基于扩散的模型架构，其中包括SwapNet、FaceNet和ID Adapter。这种健壮的架构充分释放了三重ID组明确监督的全部潜力。最后，为了进一步扩展我们的方法，我们在训练过程中显式地修改了三重ID组数据，以微调并保留特定的属性，如眼镜和面部形状。广泛的实验表明，DreamID 在身份相似性、姿态和表情保留以及图像保真度方面优于现有的最先进方法。总体而言，DreamID 在 512*512 分辨率下只需 0.6 秒即可实现高质量的面部替换结果，并且在复杂的光照条件、大角度和遮挡等具有挑战性的场景中表现出色。