摘要
尽管文本到图像 (T2I) 生成模型取得了显著进展,但在实际应用场景中,用户往往面临着反复试验的挑战。这种挑战源于繁琐步骤的复杂性和不确定性,例如精心设计合适的提示词、选择合适的模型以及配置特定的参数,导致用户不得不进行费力的尝试才能获得理想的图像。本文提出了一种自动 T2I 生成方法,旨在自动化这些繁琐的步骤,允许用户以自由聊天的方式简单地描述他们的需求。为了系统地研究这个问题,我们首先介绍了 ChatGenBench,这是一个为自动 T2I 设计的新型基准。它具有高质量的配对数据和多样化的自由输入,能够对所有步骤中的自动 T2I 模型进行全面评估。此外,认识到自动 T2I 是一项复杂的多步骤推理任务,我们提出了 ChatGen-Evo,这是一种多阶段进化策略,可以逐步为模型配备必要的自动化技能。通过对分步准确性和图像质量的广泛评估,ChatGen-Evo 的性能显著优于各种基线模型。我们的评估还揭示了推进自动 T2I 的宝贵见解。我们所有的数据、代码和模型都将可在 \url{https://chengyou-jia.github.io/ChatGen-Home} 获取。