LLM2D

摘要

图像质量评估（IQA）是几乎所有计算机视觉领域中所有模型性能的黄金标准。然而，它仍然存在着泛化能力差和训练成本高昂的问题。为了解决这些问题，我们提出了Dog-IQA，一种标准引导的零样本混合粒度IQA方法，该方法无需训练，并利用了多模态大型语言模型（MLLM）的出色先验知识。为了获得准确的IQA分数，即与人类一致的分数，我们设计了一个基于MLLM的推理流程，该流程模仿人类专家。具体来说，Dog-IQA应用了两种技术。首先，Dog-IQA利用MLLM的行为模式，并最小化主观因素的影响，通过特定标准进行客观评分。其次，Dog-IQA综合考虑局部语义对象和整幅图像作为输入，并聚合它们的分数，利用局部和全局信息。我们提出的Dog-IQA在跨数据集场景中，与无需训练的方法相比，取得了最先进（SOTA）的性能，与基于训练的方法相比，取得了具有竞争力的性能。我们的代码将在https://github.com/Kai-Liu001/Dog-IQA上提供。