LLM2D
多模态(推理)LLM能作为深度假脸检测器吗?
Can Multi-modal (reasoning) LLMs work as deepfake detectors?
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.20084v2

摘要

arXiv:2503.20084v2 通告类型: 替换-交叉 摘要:在先进生成模型时代,深度假信息(Deepfake)检测仍然是一个关键挑战,尤其是在合成媒体变得越来越复杂的情况下。在这项研究中,我们探索了最新的多模态(推理)大型语言模型(LLMs)在深度假信息图像检测中的潜力,例如(OpenAI O1/4o,Gemini thinking Flash 2,Deepseek Janus,Grok 3,llama 3.2,Qwen 2/2.5 VL,Mistral Pixtral,Claude 3.5/3.7 sonnet)。我们跨多个数据集对12款最先进的多模态LLMs与传统深度假信息检测方法进行了基准测试,包括近期发布的现实生活中的深度假信息图像。为了提高性能,我们采用了提示调优,并对模型的推理路径进行了深入分析,以确定其决策过程中起关键作用的因素。研究发现,最佳的多模态LLMs即使在零样本的情况下也能够取得与传统深度假信息检测管道相当甚至更优的性能,特别是在分布之外的数据集上,而其他LLM家族的表现极其令人失望,甚至有些模型比随机猜测还要差。此外,我们发现,在这种特定的深度假信息检测任务中,新版本模型和推理能力并未提高性能,而模型大小在某些情况下确实有所帮助。本研究突显了将多模态推理整合到未来深度假信息检测框架中的潜力,并为实际场景中的模型可解释性提供了见解。