LLM2D

摘要

arXiv:2503.20084v1 宣告类型: 综合摘要：在生成模型高度发达的时代，深度伪造检测仍然是一个关键挑战，尤其是随着合成媒体变得更加复杂。在本研究中，我们探索了最新的多模态（推理）大规模语言模型（LLMs）在深度伪造图像检测中的潜力，例如（OpenAI O1/4o、Gemini thinking Flash 2、Deepseek Janus、Grok 3、llama 3.2、Qwen 2/2.5 VL、Mistral Pixtral、Claude 3.5/3.7 sonnet）。我们在多个数据集上将12款最新的多模态LLMs与传统的深度伪造检测方法进行了基准测试，这些数据集包括近期发布的实际世界深度伪造图像。为了提高性能，我们采用了提示调优，并对模型的推理路径进行了深入分析，以确定其决策过程中的关键因素。我们的研究结果表明，最佳的多模态LLMs即使在零样本情况下也能实现竞争力的表现，甚至在某些离散数据集中的性能超过了传统的深度伪造检测管道，而其余的LLM家族则表现极其不佳，有的甚至比随机猜测还差。此外，我们发现，在这类特定的深度伪造检测任务中，新的模型版本和推理能力并不能提高性能，而模型大小在某些情况下确实有助于性能提升。本研究强调了将多模态推理集成到未来深度伪造检测框架中的潜在可能性，并为现实世界场景中的模型可解释性提供了见解。