LLM2D

摘要

arXiv:2504.09839v1 安全类型: cross 摘要：语音合成技术带来了极大的便利，但广泛使用的逼真深度假音引发了安全隐患。恶意对手可能未经授权收集受害者的讲话，并克隆相似的声音用于非法利用（例如，电信诈骗）。然而，现有的防御方法不能有效地防止深度假音利用，且容易受到健壮训练技术的攻击。因此，迫切需要一种更有效且健壮的数据保护方法。为应对这一需求，我们提出了一种防御框架，**SafeSpeech**，该框架在上传前保护用户的音频，通过在原始讲话中嵌入不可感知的扰动来防止高质量合成语音。在SafeSpeech中，我们设计了一种健壮且通用的主动保护技术，**Speech Perturbative Concealment (SPEC)**，该技术利用代理模型为生成合成模型生成通用适用的扰动。此外，我们还在时间域和频域优化嵌入扰动的人类感知。为了全面评估我们的方法，我们在高级模型和数据集上进行了广泛的实验，既主观又客观。我们的实验结果表明，SafeSpeech实现了最先进的（SOTA）语音保护效果和移植性，并且对高级适应性对手具有高度的健壮性。此外，SafeSpeech在真实世界测试中具有实时能力。源代码可在 \href{https://github.com/wxzyd123/SafeSpeech}{https://github.com/wxzyd123/SafeSpeech} 获取。