摘要
arXiv:2501.18919v1 声音生成类型:cross
摘要:音乐行业中的声音生成deepfake是一个令艺术家们担忧的问题。在本文中,我们提出了一种歌唱声音deepfake检测(SVDD)系统,该系统使用了open-AI的Whisper模型的噪声变异编码。尽管Whisper模型以其噪声鲁棒性而闻名,但其编码富含非语音信息,并且是噪声变异的。这促使我们将Whisper编码作为SVDD任务的特征表示进行评估。因此,在本文中,SVDD任务在人声和混合物上进行,并在不同的Whisper模型大小和两种分类器(CNN和ResNet34)下,通过不同的测试条件评估其性能指标EER百分比。