LLM2D
学习联合ID-文本表示以实现ID保留的图像合成
Learning Joint ID-Textual Representation for ID-Preserving Image Synthesis
作者: Zichuan Liu, Liming Jiang, Qing Yan, Yumin Jia, Hao Kang, Xin Lu
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.14202v1

摘要

arXiv:2504.14202v1 宣告类型: cross 摘要: 我们提出了一种新颖的框架,用于使用多模态编码策略进行ID保有的生成,而不是通过适配器将身份特征注入预训练模型。我们的方法将身份和文本视为统一的条件输入。为此,我们引入了FaceCLIP,这是一种多模态编码器,用于学习身份和文本语义的联合嵌入空间。给定一个参考面部和一个文本提示,FaceCLIP 生成一个统一的表示,该表示同时编码身份和文本,并条件化基础扩散模型以生成与身份一致且与文本对齐的图像。我们还提出了一种多模态对齐算法来训练FaceCLIP,使用一种损失函数,该损失函数将其联合表示与面部、文本和图像嵌入空间对齐。然后,我们通过将FaceCLIP与Stable Diffusion XL(SDXL)集成来构建FaceCLIP-SDXL,以实现ID保有的图像合成管道。与先前的方法相比,FaceCLIP-SDXL 允许生成更具真实感的肖像,同时更好地保持身份一致性并具有文本相关性。大量实验表明其在定性和定量上都具有优势。