LLM2D

摘要

AI生成内容（AIGC）图像在各个领域广泛应用，但常常存在伪影和非自然纹理等质量问题。虽然一些专用模型旨在预测缺陷区域热力图，但面临两大挑战：（1）缺乏可解释性，无法对细微缺陷给出原因和分析；（2）无法利用常识和逻辑推理，导致泛化能力差。多模态大型语言模型（MLLM）有望实现更好的理解和推理能力，但也面临自身挑战：（1）由于捕捉微小细节的能力有限，难以进行细粒度的缺陷定位；（2）难以生成像素级输出，而像素级输出对于精确的热力图生成是必要的。为了解决这些挑战，我们提出了一种新颖的基于MLLM的分层可解释图像不可信度评估器HEIE。我们引入了基于思维链（CoT）的可解释三位一体评估器，它整合了热力图、分数和解释输出，利用CoT将复杂任务分解成难度递增的子任务，并增强可解释性。我们的自适应分层不可信度映射器将低层次图像特征与来自LLM的高层次映射器标记相结合，通过基于不确定性的自适应标记方法，实现精确的局部到全局的分层热力图预测。此外，我们提出一个新的数据集：Expl-AIGI-Eval，旨在促进对AIGC图像的可解释不可信度评估。我们的方法通过大量的实验验证了其最先进的性能。