LLM2D

摘要

尽管文本到图像 (T2I) 生成模型取得了显著进展，但在实际应用场景中，用户往往面临着反复试验的挑战。这种挑战源于繁琐步骤的复杂性和不确定性，例如精心设计合适的提示词、选择合适的模型以及配置特定的参数，导致用户不得不进行费力的尝试才能获得理想的图像。本文提出了一种自动 T2I 生成方法，旨在自动化这些繁琐的步骤，允许用户以自由聊天的方式简单地描述他们的需求。为了系统地研究这个问题，我们首先介绍了 ChatGenBench，这是一个为自动 T2I 设计的新型基准。它具有高质量的配对数据和多样化的自由输入，能够对所有步骤中的自动 T2I 模型进行全面评估。此外，认识到自动 T2I 是一项复杂的多步骤推理任务，我们提出了 ChatGen-Evo，这是一种多阶段进化策略，可以逐步为模型配备必要的自动化技能。通过对分步准确性和图像质量的广泛评估，ChatGen-Evo 的性能显著优于各种基线模型。我们的评估还揭示了推进自动 T2I 的宝贵见解。我们所有的数据、代码和模型都将可在 \url{https://chengyou-jia.github.io/ChatGen-Home} 获取。