LLM2D

摘要

受扩散模型的显著进展驱动，文本到图像生成取得了重大进展，这迫切需要对生成的图像进行自动质量评估。目前的自动评估方法主要依赖于多模态大型语言模型（MLLM），特别是像GPT-4o这样功能强大的商业模型。虽然这些模型非常有效，但其高昂的成本限制了大规模评估的可扩展性。采用开源MLLM是一种替代方案；然而，由于在处理多模态数据方面与商业MLLM相比存在显著局限性，其性能有所下降。为了解决这些问题，我们首先提出一个基于GPT-4o的任务分解评估框架来自动构建新的训练数据集，其中复杂评估任务被分解成更简单的子任务，有效降低了学习复杂度。基于此数据集，我们设计了创新的训练策略，将GPT-4o的评估能力有效地蒸馏到一个7B的开源MLLM，MiniCPM-V-2.6中。此外，为了可靠且全面地评估先前的工作和我们提出的模型，我们手动标注了一个元评估基准，其中包括生成的图像的质量分数以及思维链解释。实验结果表明，我们蒸馏的开源MLLM显著优于当前最先进的基于GPT-4o的基线VIEScore，在与人工判断的Spearman和Kendall相关性方面提高了4.6%以上。