摘要
深度伪造技术的快速发展对数字媒体的完整性构成了重大威胁。深度伪造是指利用人工智能技术合成的媒体,可以令人信服地改变视频和音频以歪曲现实。这带来了虚假信息、欺诈的风险,并对个人隐私和安全造成严重影响。我们的研究通过一种创新的多模态方法来解决深度伪造的关键问题,该方法针对视觉和听觉元素。这种全面的策略认识到人类感知整合了多种感官输入,特别是视觉和听觉信息,以形成对媒体内容的完整理解。对于视觉分析,我们开发了一个采用先进特征提取技术的模型,提取了九种不同的面部特征,然后应用各种机器学习和深度学习模型。对于听觉分析,我们的模型利用梅尔谱图分析进行特征提取,然后应用各种机器学习和深度学习模型。为了实现组合分析,将原始数据集中的真实音频和深度伪造音频互换以进行测试,并确保样本平衡。使用我们提出的用于视频和音频分类的模型(即人工神经网络和 VGG19),如果任一组件被识别为深度伪造,则整个样本被分类为深度伪造。我们的多模态框架结合了视觉和听觉分析,获得了 94% 的准确率。