LLM2D

摘要

arXiv:2504.11686v1 命中类型: cross 摘要：生成型AI的迅速发展促进了内容创作并使图像操作更容易且更难以检测。尽管多模态大型语言模型（LLMs）蕴含了丰富的世界知识，但它们并不是为对抗由AI生成的内容（AIGC）而设计的，难以理解局部伪造细节。在本工作中，我们探讨了多模态LLMs在伪造检测中的应用。我们提出了一种框架，能够评估图像的真实性、定位篡改区域、提供证据并基于语义篡改线索追踪生成方法。我们的方法证明了通过细致的指令工程和少量样本学习技术，多模态LLMs在伪造分析中的潜力可以得到有效释放。我们进行了定性和定量实验，并展示了GPT4V在Autosplice中的准确率为92.1%、在LaMa中的准确率为86.3%，这在目前最先进的AIGC检测方法中具有竞争力。我们进一步讨论了多模态LLMs在这些任务中的局限性，并提出了潜在的改进方案。