摘要
图像质量评估 (IQA) 是几乎所有计算机视觉领域模型性能的黄金标准。然而,它仍然存在着泛化能力差和训练成本高的问题。为了解决这些问题,我们提出了 Dog-IQA,一种标准引导的零样本混合粒度 IQA 方法,该方法无需训练,并利用多模态大型语言模型 (MLLM) 的出色先验知识。为了获得准确的 IQA 分数,即与人类一致的分数,我们设计了一个基于 MLLM 的推理管道,模仿人类专家。具体来说,Dog-IQA 应用了两种技术。首先,Dog-IQA 利用 MLLM 的行为模式,并最大限度地减少主观因素的影响,以特定标准客观地进行评分。其次,Dog-IQA 以局部语义对象和整个图像作为输入,并聚合它们的得分,利用局部和全局信息。我们提出的 Dog-IQA 在跨数据集场景中,与无训练方法相比取得了最先进 (SOTA) 的性能,与基于训练的方法相比也具有竞争力。我们的代码和模型将在 https://github.com/Kai-Liu001/Dog-IQA 上提供。