摘要
arXiv:2504.11686v1 命中类型: cross
摘要:生成型AI的迅速发展促进了内容创作并使图像操作更容易且更难以检测。尽管多模态大型语言模型(LLMs)蕴含了丰富的世界知识,但它们并不是为对抗由AI生成的内容(AIGC)而设计的,难以理解局部伪造细节。在本工作中,我们探讨了多模态LLMs在伪造检测中的应用。我们提出了一种框架,能够评估图像的真实性、定位篡改区域、提供证据并基于语义篡改线索追踪生成方法。我们的方法证明了通过细致的指令工程和少量样本学习技术,多模态LLMs在伪造分析中的潜力可以得到有效释放。我们进行了定性和定量实验,并展示了GPT4V在Autosplice中的准确率为92.1%、在LaMa中的准确率为86.3%,这在目前最先进的AIGC检测方法中具有竞争力。我们进一步讨论了多模态LLMs在这些任务中的局限性,并提出了潜在的改进方案。