摘要
音频深度伪造检测对于对抗人工智能合成语音的恶意使用至关重要。在社区所做出的众多努力中,ASVspoof挑战赛已成为评估检测模型泛化性和鲁棒性的基准之一。本文介绍了Reality Defender对ASVspoof5挑战赛的提交方案,重点介绍了一种新颖的预训练策略,该策略在保持训练期间低计算成本的同时显著提高了泛化性。我们的系统SLIM使用自监督对比学习从各种类型的真实语音中学习风格-语言依赖嵌入。学习到的嵌入通过关注风格和语言方面之间的关系来帮助区分伪造语音和真实语音。我们在ASVspoof5、ASV2019和现实场景中评估了我们的系统。我们的提交方案在ASVspoof5 Track 1上获得了0.1499的minDCF和5.5%的EER,在ASV2019和现实场景中分别获得了7.4%和10.8%的EER。