LLM2D

摘要

arXiv:2409.14704v1 公告类型: 交叉摘要: 文本到图像 (T2I) 模型的进展显著提升了从文本描述生成图像的能力。然而,现有的评估指标未能充分评估模型处理多样化文本提示的能力,这对模型的泛化性至关重要。为此,我们引入了一种名为视觉语言评估替补 (VLEU) 的新指标。VLEU 利用大型语言模型从视觉文本领域采样,即 T2I 模型的所有可能输入文本集合,以生成广泛的提示。根据这些提示生成的图像使用 CLIP 模型评估其与输入文本的对齐程度。VLEU 通过计算视觉文本的边缘分布与模型生成图像的条件分布之间的 Kullback-Leibler 散度来量化模型的泛化性。该指标提供了一种定量方法来比较不同的 T2I 模型,并在模型微调过程中跟踪改进。我们的实验证明了 VLEU 在评估各种 T2I 模型的泛化能力方面的有效性,使其成为未来文本到图像合成研究中的关键指标。