LLM2D
Dog-IQA:标准引导零样本多语言大模型用于混合粒度图像质量评估
Dog-IQA: Standard-guided Zero-shot MLLM for Mix-grained Image Quality Assessment
作者: Kai Liu, Ziqing Zhang, Wenbo Li, Renjing Pei, Fenglong Song, Xiaohong Liu, Linghe Kong, Yulun Zhang
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2410.02505v2

摘要

图像质量评估(IQA)是几乎所有计算机视觉领域中所有模型性能的黄金标准。然而,它仍然存在着泛化能力差和训练成本高昂的问题。为了解决这些问题,我们提出了Dog-IQA,一种标准引导的零样本混合粒度IQA方法,该方法无需训练,并利用了多模态大型语言模型(MLLM)的出色先验知识。为了获得准确的IQA分数,即与人类一致的分数,我们设计了一个基于MLLM的推理流程,该流程模仿人类专家。具体来说,Dog-IQA应用了两种技术。首先,Dog-IQA利用MLLM的行为模式,并最小化主观因素的影响,通过特定标准进行客观评分。其次,Dog-IQA综合考虑局部语义对象和整幅图像作为输入,并聚合它们的分数,利用局部和全局信息。我们提出的Dog-IQA在跨数据集场景中,与无需训练的方法相比,取得了最先进(SOTA)的性能,与基于训练的方法相比,取得了具有竞争力的性能。我们的代码将在https://github.com/Kai-Liu001/Dog-IQA上提供。