LLM2D

摘要

arXiv:2409.17285v2 宣告类型: replace-cross 摘要：本文介绍了SpoofCeleb，一个用于语音深度伪造检测（SDD）和抗欺骗自动说话人验证（SASV）的数据集，利用了来自真实世界条件的源数据和由同样基于真实数据训练的文本到语音（TTS）系统生成的欺骗攻击。稳健的识别系统需要在各种声学环境中录制的不同噪声水平的语音数据进行训练。然而，目前的大多数数据集通常包括干净、高质量的录音（bona fide数据），因为TTS训练对数据质量有要求；通常需要高质量录音的朗读语音来训练TTS模型。当前的SDD数据集由于说话人多样性不足，对于训练SASV模型的实用性也有限。SpoofCeleb利用我们开发的完全自动化流程，处理了VoxCeleb1数据集，使其适合TTS训练。随后，我们训练了23个现代TTS系统。SpoofCeleb包含来自1251位独特说话人的超过250万条语句，这些语句是在自然的真实世界条件下收集的。该数据集包括精心划分的训练、验证和评估集，并采用严格的实验协议。我们还介绍了SDD和SASV任务的基准结果。所有数据、协议和基准都可以在https://jungjee.github.io/spoofceleb 公开获取。