LLM2D

摘要

arXiv:2501.18919v1 声音生成类型：cross 摘要：音乐行业中的声音生成deepfake是一个令艺术家们担忧的问题。在本文中，我们提出了一种歌唱声音deepfake检测（SVDD）系统，该系统使用了open-AI的Whisper模型的噪声变异编码。尽管Whisper模型以其噪声鲁棒性而闻名，但其编码富含非语音信息，并且是噪声变异的。这促使我们将Whisper编码作为SVDD任务的特征表示进行评估。因此，在本文中，SVDD任务在人声和混合物上进行，并在不同的Whisper模型大小和两种分类器（CNN和ResNet34）下，通过不同的测试条件评估其性能指标EER百分比。