LLM2D
跨域音频深度伪造检测:数据集与分析
Cross-Domain Audio Deepfake Detection: Dataset and Analysis
发布日期: 9/23/2024
arXiv ID: oai:arXiv.org:2404.04904v2

摘要

arXiv:2404.04904v2 公告类型: 替换-交叉 摘要: 音频深度伪造检测(ADD)对于防止合成声音的滥用至关重要,这些声音可能侵犯个人权利和隐私。最近的零样本文本到语音(TTS)模型带来了更高的风险,因为它们可以通过单个语音样本克隆声音。然而,现有的ADD数据集已经过时,导致检测模型的泛化能力不佳。在本文中,我们构建了一个新的跨域ADD数据集,包含超过300小时的语音数据,这些数据由五个先进的零样本TTS模型生成。为了模拟真实世界场景,我们采用了多种攻击方法和来自不同数据集的音频提示。实验表明,通过新颖的攻击增强训练,Wav2Vec2-large和Whisper-medium模型分别实现了4.1%和6.5%的等错误率。此外,我们通过仅使用一分钟的目标域数据进行微调,展示了我们模型的卓越少样本ADD能力。然而,神经编解码压缩器极大地影响了检测准确性,需要进一步研究。