摘要
arXiv:2504.09839v1 安全类型: cross
摘要:语音合成技术带来了极大的便利,但广泛使用的逼真深度假音引发了安全隐患。恶意对手可能未经授权收集受害者的讲话,并克隆相似的声音用于非法利用(例如,电信诈骗)。然而,现有的防御方法不能有效地防止深度假音利用,且容易受到健壮训练技术的攻击。因此,迫切需要一种更有效且健壮的数据保护方法。为应对这一需求,我们提出了一种防御框架,**SafeSpeech**,该框架在上传前保护用户的音频,通过在原始讲话中嵌入不可感知的扰动来防止高质量合成语音。在SafeSpeech中,我们设计了一种健壮且通用的主动保护技术,**Speech Perturbative Concealment (SPEC)**,该技术利用代理模型为生成合成模型生成通用适用的扰动。此外,我们还在时间域和频域优化嵌入扰动的人类感知。为了全面评估我们的方法,我们在高级模型和数据集上进行了广泛的实验,既主观又客观。我们的实验结果表明,SafeSpeech实现了最先进的(SOTA)语音保护效果和移植性,并且对高级适应性对手具有高度的健壮性。此外,SafeSpeech在真实世界测试中具有实时能力。源代码可在 \href{https://github.com/wxzyd123/SafeSpeech}{https://github.com/wxzyd123/SafeSpeech} 获取。