LLM2D

摘要

arXiv:2504.06753v1 交叉公告类型：跨类型摘要：音频生成技术的迅速发展加剧了语音、声音、歌声和音乐中恶意深度假音的风险，威胁了多媒体的安全性和可信度。虽然现有的防范措施（CMs）在单类型音频深度假音检测（ADD）中表现良好，但在跨类型场景下的表现却有所下降。本文致力于研究跨类型ADD任务。我们首次全面建立了跨类型ADD基准，用于评估当前CMs，该基准涵盖了语音、声音、歌声和音乐中的跨类型深度假音检测。然后，我们介绍了提示调谐自监督学习（PT-SSL）训练范式，该范式通过学习针对ADD的专业提示标记优化了SSL前端，所需要的可训练参数比微调（FT）少458倍。考虑到不同音频类型的声音感知，我们提出了小波提示调谐（WPT）-SSL方法，该方法在频率域中捕捉类型不变的声音深度假音信息，无需额外的训练参数，从而在所有类型ADD任务中超过了FT的性能。为了实现普遍适用的CM，我们使用了所有类型的真实深度假音音频进行联合训练。实验结果表明，WPT-XLSR-AASIST在所有评估集中获得了最佳性能，平均EER为3.58%。代码已在线提供。