摘要
深度伪造技术的快速发展引发了人们对数字媒体完整性的重大担忧。检测深度伪造对于保障数字媒体至关重要。然而,大多数标准图像分类器无法区分假脸和真脸。我们的分析表明,这种失败是由于模型无法明确地关注深度伪造中常见的伪造痕迹。我们提出了一种基于 GenConViT 模型的增强架构,该架构结合了加权损失和更新增强技术,并包含遮蔽眼睛预训练。该模型在 Celeb-DF v2 数据集上将 F1 分数提高了 1.71%,准确率提高了 4.34%。我们模型的源代码可在 https://github.com/Monu-Khicher-1/multi-stage-learning 获取。