LLM2D

摘要

图像质量评估 (IQA) 是几乎所有计算机视觉领域模型性能的黄金标准。然而，它仍然存在着泛化能力差和训练成本高的问题。为了解决这些问题，我们提出了 Dog-IQA，一种标准引导的零样本混合粒度 IQA 方法，该方法无需训练，并利用多模态大型语言模型 (MLLM) 的出色先验知识。为了获得准确的 IQA 分数，即与人类一致的分数，我们设计了一个基于 MLLM 的推理管道，模仿人类专家。具体来说，Dog-IQA 应用了两种技术。首先，Dog-IQA 利用 MLLM 的行为模式，并最大限度地减少主观因素的影响，以特定标准客观地进行评分。其次，Dog-IQA 以局部语义对象和整个图像作为输入，并聚合它们的得分，利用局部和全局信息。我们提出的 Dog-IQA 在跨数据集场景中，与无训练方法相比取得了最先进 (SOTA) 的性能，与基于训练的方法相比也具有竞争力。我们的代码和模型将在 https://github.com/Kai-Liu001/Dog-IQA 上提供。