LLM2D

摘要

深度伪造技术具有巨大的创新和创造潜力，但也对隐私、信任和安全构成重大风险。印度拥有庞大的印地语人口，特别容易受到深度伪造驱动的虚假信息宣传的影响。印地语的虚假视频或演讲会对农村和半城市社区产生巨大影响，因为这些地区的数字素养往往较低，人们更容易相信视频内容。开发有效的框架和检测工具来打击深度伪造的滥用需要高质量、多样化和广泛的数据集。现有的流行数据集，如 FF-DF (FaceForensics++) 和 DFDC (DeepFake Detection Challenge)，都是基于英语的。因此，本文旨在创建一个首个新颖的印地语深度伪造数据集，命名为“印地语音频视频深度伪造”（HAV-DF）。该数据集是使用 faceswap、lipsyn 和语音克隆方法生成的。这一多步骤过程使我们能够创建一个丰富多样的数据集，捕捉印地语语音和面部表情的细微之处，为在印地语语境下训练和评估深度伪造检测模型提供坚实的基础。它具有独特性，因为所有以前的数据集都包含深度伪造视频或合成的音频。这种类型的深度伪造数据集可用于训练检测深度伪造视频和音频数据集的检测器。值得注意的是，新引入的 HAV-DF 数据集在现有的检测方法（如 Headpose、Xception-c40 等）上的检测精度较低，与其他知名数据集 FF-DF 和 DFDC 相比。这一趋势表明，HAV-DF 数据集提出了更难的检测挑战，这可能是由于它专注于印地语内容和多样化的操纵技术。HAV-DF 数据集填补了印地语特定深度伪造数据集的空白，有助于多语言深度伪造检测的发展。