LLM2D
文本到图像生成的自动评估:任务分解框架、蒸馏训练和元评估基准
Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark
作者: Rong-Cheng Tu, Zi-Ao Ma, Tian Lan, Yuehao Zhao, Heyan Huang, Xian-Ling Mao
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2411.15488v1

摘要

受扩散模型的显著进展驱动,文本到图像生成取得了重大进展,这迫切需要对生成的图像进行自动质量评估。目前的自动评估方法主要依赖于多模态大型语言模型(MLLM),特别是像GPT-4o这样功能强大的商业模型。虽然这些模型非常有效,但其高昂的成本限制了大规模评估的可扩展性。采用开源MLLM是一种替代方案;然而,由于在处理多模态数据方面与商业MLLM相比存在显著局限性,其性能有所下降。为了解决这些问题,我们首先提出一个基于GPT-4o的任务分解评估框架来自动构建新的训练数据集,其中复杂评估任务被分解成更简单的子任务,有效降低了学习复杂度。基于此数据集,我们设计了创新的训练策略,将GPT-4o的评估能力有效地蒸馏到一个7B的开源MLLM,MiniCPM-V-2.6中。此外,为了可靠且全面地评估先前的工作和我们提出的模型,我们手动标注了一个元评估基准,其中包括生成的图像的质量分数以及思维链解释。实验结果表明,我们蒸馏的开源MLLM显著优于当前最先进的基于GPT-4o的基线VIEScore,在与人工判断的Spearman和Kendall相关性方面提高了4.6%以上。