LLM2D

摘要

arXiv:2412.12032v3 通知类型: 替换-交叉摘要: 在有大量的未标记真实人脸的情况下，如何学习一种鲁棒且可迁移的人脸表示，从而在泛化性能上提升各种面部安全任务？我们提出了第一个尝试，并提出了一种自监督预训练框架，用于学习真实人脸图像的基本表示——FSFM，该框架结合了掩码图像建模（MIM）和实例鉴别（ID）的优点。我们探索了各种面部掩模策略以应用于MIM，并提出了一种简单而强大的CRFR-P掩模方法，该方法明确地促使模型捕捉有意义的内部区域一致性以及具有挑战性的外部区域一致性。此外，我们设计了一种与MIM自然结合的ID网络，通过定制的自我蒸馏建立局部到全局的对应关系。这三个学习目标，即3C，实现了对真实人脸的局部特征和全局语义的编码。在预训练之后，一个普通的ViT作为下游面部安全任务的基础模型：跨数据集的深度伪造检测、跨领域的面部防欺骗和未见过的扩散伪造面部检测的基础。广泛的实验表明，我们的模型在泛化性能上优于有监督预训练、视觉和面部自监督学习方法，甚至优于专门针对任务的SOTA方法。