LLM2D
无需微调的个性化图像生成
Imagine yourself: Tuning-Free Personalized Image Generation
发布日期: 9/23/2024
arXiv ID: oai:arXiv.org:2409.13346v1

摘要

扩散模型在各种图像到图像的任务中展示了显著的有效性。在本研究中,我们介绍了Imagine yourself,一种用于个性化图像生成的最先进模型。与传统的基于调优的个性化技术不同,Imagine yourself作为一个无需调优的模型,使所有用户能够利用共享框架而无需个性化调整。此外,先前的工作在平衡身份保留、遵循复杂提示和保持良好视觉质量方面遇到了挑战,导致模型对参考图像产生强烈的复制粘贴效果。因此,它们很难生成符合需要对参考图像进行重大更改的提示的图像,例如改变面部表情、头部和身体姿势,并且生成图像的多样性较低。为了解决这些限制,我们提出的方法引入了1)一种新的合成配对数据生成机制以促进图像多样性,2)一种完全并行的注意力架构,包含三个文本编码器和一个完全可训练的视觉编码器,以提高文本忠实度,以及3)一种新颖的从粗到细的多阶段微调方法,逐步推动视觉质量的边界。我们的研究表明,Imagine yourself超越了最先进的个性化模型,在身份保留、视觉质量和文本对齐方面表现出更强的能力。该模型为各种个性化应用奠定了坚实的基础。人类评估结果验证了该模型在所有方面(身份保留、文本忠实度和视觉吸引力)相对于先前个性化模型的SOTA优势。