LLM2D

摘要

扩散模型在各种图像到图像的任务中展示了显著的有效性。在本研究中，我们介绍了Imagine yourself，一种用于个性化图像生成的最先进模型。与传统的基于调优的个性化技术不同，Imagine yourself作为一个无需调优的模型，使所有用户能够利用共享框架而无需个性化调整。此外，先前的工作在平衡身份保留、遵循复杂提示和保持良好视觉质量方面遇到了挑战，导致模型对参考图像产生强烈的复制粘贴效果。因此，它们很难生成符合需要对参考图像进行重大更改的提示的图像，例如改变面部表情、头部和身体姿势，并且生成图像的多样性较低。为了解决这些限制，我们提出的方法引入了1)一种新的合成配对数据生成机制以促进图像多样性，2)一种完全并行的注意力架构，包含三个文本编码器和一个完全可训练的视觉编码器，以提高文本忠实度，以及3)一种新颖的从粗到细的多阶段微调方法，逐步推动视觉质量的边界。我们的研究表明，Imagine yourself超越了最先进的个性化模型，在身份保留、视觉质量和文本对齐方面表现出更强的能力。该模型为各种个性化应用奠定了坚实的基础。人类评估结果验证了该模型在所有方面（身份保留、文本忠实度和视觉吸引力）相对于先前个性化模型的SOTA优势。