LLM2D

摘要

本文介绍了 SpoofCeleb，这是一个专为语音深度伪造检测 (SDD) 和抗欺骗自动说话人验证 (SASV) 而设计的数据集，利用来自真实世界条件的源数据和由文本到语音 (TTS) 系统生成的欺骗攻击，这些系统也使用相同的真实世界数据进行训练。稳健的识别系统需要在不同噪声水平的各种声学环境中记录的语音数据进行训练。然而，现有的数据集通常包含干净、高质量的录音（真实数据），这是 TTS 训练的要求；通常需要工作室质量或录制良好的朗读语音来训练 TTS 模型。现有的 SDD 数据集对于训练 SASV 模型的实用性也十分有限，因为说话人多样性不足。我们提出了 SpoofCeleb，它利用一个全自动管道处理 VoxCeleb1 数据集，将其转换为适合 TTS 训练的形式。我们随后训练了 23 个当代 TTS 系统。由此产生的 SpoofCeleb 数据集包含来自 1,251 名独特说话人的超过 250 万个语音片段，这些片段是在自然、真实世界的条件下收集的。该数据集包含精心划分的训练集、验证集和评估集，以及控制良好的实验协议。我们提供了 SDD 和 SASV 任务的基准结果。所有数据、协议和基准都在 https://jungjee.github.io/spoofceleb 公开提供。