摘要
arXiv:2504.06753v1 交叉公告类型:跨类型
摘要:音频生成技术的迅速发展加剧了语音、声音、歌声和音乐中恶意深度假音的风险,威胁了多媒体的安全性和可信度。虽然现有的防范措施(CMs)在单类型音频深度假音检测(ADD)中表现良好,但在跨类型场景下的表现却有所下降。本文致力于研究跨类型ADD任务。我们首次全面建立了跨类型ADD基准,用于评估当前CMs,该基准涵盖了语音、声音、歌声和音乐中的跨类型深度假音检测。然后,我们介绍了提示调谐自监督学习(PT-SSL)训练范式,该范式通过学习针对ADD的专业提示标记优化了SSL前端,所需要的可训练参数比微调(FT)少458倍。考虑到不同音频类型的声音感知,我们提出了小波提示调谐(WPT)-SSL方法,该方法在频率域中捕捉类型不变的声音深度假音信息,无需额外的训练参数,从而在所有类型ADD任务中超过了FT的性能。为了实现普遍适用的CM,我们使用了所有类型的真实深度假音音频进行联合训练。实验结果表明,WPT-XLSR-AASIST在所有评估集中获得了最佳性能,平均EER为3.58%。代码已在线提供。