LLM2D

摘要

arXiv:2504.14202v1 宣告类型: cross 摘要: 我们提出了一种新颖的框架，用于使用多模态编码策略进行ID保有的生成，而不是通过适配器将身份特征注入预训练模型。我们的方法将身份和文本视为统一的条件输入。为此，我们引入了FaceCLIP，这是一种多模态编码器，用于学习身份和文本语义的联合嵌入空间。给定一个参考面部和一个文本提示，FaceCLIP 生成一个统一的表示，该表示同时编码身份和文本，并条件化基础扩散模型以生成与身份一致且与文本对齐的图像。我们还提出了一种多模态对齐算法来训练FaceCLIP，使用一种损失函数，该损失函数将其联合表示与面部、文本和图像嵌入空间对齐。然后，我们通过将FaceCLIP与Stable Diffusion XL（SDXL）集成来构建FaceCLIP-SDXL，以实现ID保有的图像合成管道。与先前的方法相比，FaceCLIP-SDXL 允许生成更具真实感的肖像，同时更好地保持身份一致性并具有文本相关性。大量实验表明其在定性和定量上都具有优势。