LLM2D

摘要

arXiv:2501.13554v3 Announce Type: replace-cross 摘要：文本到图像生成模型可以从输入提示中生成高质量的图像。然而，它们在支持故事讲述中的保身份一致生成方面存在困难。解决这个问题的现有方法通常需要在大数据集上进行大量的训练或对原始模型架构进行额外的修改。这限制了它们在不同领域和多样化的扩散模型配置中的应用。在本文中，我们首先观察语言模型固有的能力，即所谓的上下文一致性，通过单个提示理解身份。受到上下文一致性的启发，我们提出了一种名为"One-Prompt-One-Story"（1Prompt1Story）的新的无需训练的方法来进行一致的文本到图像（T2I）生成。我们的方法1Prompt1Story将所有提示连接成一个输入用于T2I扩散模型，最初保留角色身份。然后，我们使用两种新的技术：奇异值重新加权和保身份跨注意力细化生成过程，确保每帧与输入描述有更好的对齐。在我们的实验中，我们将我们的方法与其他各种现有的一致的T2I生成方法进行比较，通过定量指标和定性评估来展示其有效性。代码可在https://github.com/byliutao/1Prompt1Story获取。