LLM2D

摘要

arXiv:2504.20669v1 Announce Type: cross 摘要：最近基于AI的多媒体生成技术的进步使得创建超逼真的图像和视频成为可能，引发了对其在传播虚假信息方面的潜在用途的担忧。由于生成技术的广泛应用，这些技术允许从提示或现有媒体生成虚假多媒体，并且它们连续优化，突显了迫切需要高度准确且普适的AI生成媒体检测方法，尤其是在新的法规如欧洲数字AI法案出台后。在本文中，我们从基于Vision Transformer (ViT)的虚假图片检测中汲取灵感，并将这一理念扩展到视频领域。我们提出了一种新颖的框架，该框架有效地在时间上融合了ViT嵌入，以提高检测性能。我们的方法在使用五个最先进的开源生成技术生成的新、大且多样的视频数据集以及包含由专有生成方法生成的视频的单独数据集上展示了有希望的准确率、泛化能力和少量样本学习能力。