LLM2D

摘要

深度伪造技术的快速发展对数字媒体的完整性构成了重大威胁。深度伪造是指利用人工智能技术合成的媒体，可以令人信服地改变视频和音频以歪曲现实。这带来了虚假信息、欺诈的风险，并对个人隐私和安全造成严重影响。我们的研究通过一种创新的多模态方法来解决深度伪造的关键问题，该方法针对视觉和听觉元素。这种全面的策略认识到人类感知整合了多种感官输入，特别是视觉和听觉信息，以形成对媒体内容的完整理解。对于视觉分析，我们开发了一个采用先进特征提取技术的模型，提取了九种不同的面部特征，然后应用各种机器学习和深度学习模型。对于听觉分析，我们的模型利用梅尔谱图分析进行特征提取，然后应用各种机器学习和深度学习模型。为了实现组合分析，将原始数据集中的真实音频和深度伪造音频互换以进行测试，并确保样本平衡。使用我们提出的用于视频和音频分类的模型（即人工神经网络和 VGG19），如果任一组件被识别为深度伪造，则整个样本被分类为深度伪造。我们的多模态框架结合了视觉和听觉分析，获得了 94% 的准确率。