LLM2D

摘要

arXiv:2404.04904v2 公告类型: 替换-交叉摘要: 音频深度伪造检测（ADD）对于防止合成声音的滥用至关重要，这些声音可能侵犯个人权利和隐私。最近的零样本文本到语音（TTS）模型带来了更高的风险，因为它们可以通过单个语音样本克隆声音。然而，现有的ADD数据集已经过时，导致检测模型的泛化能力不佳。在本文中，我们构建了一个新的跨域ADD数据集，包含超过300小时的语音数据，这些数据由五个先进的零样本TTS模型生成。为了模拟真实世界场景，我们采用了多种攻击方法和来自不同数据集的音频提示。实验表明，通过新颖的攻击增强训练，Wav2Vec2-large和Whisper-medium模型分别实现了4.1%和6.5%的等错误率。此外，我们通过仅使用一分钟的目标域数据进行微调，展示了我们模型的卓越少样本ADD能力。然而，神经编解码压缩器极大地影响了检测准确性，需要进一步研究。