摘要
arXiv:2409.13382v1 公告类型: 交叉 摘要: 随着当前合成方法在接近人类语音且广泛可及的情况下,自动检测合成语音变得越来越重要。音频水印和其他主动披露方法正在吸引研究活动,因为它们可以补充基于被动检测的传统深度伪造防御。在主动和被动检测中,鲁棒性是主要关注点。传统的音频水印特别容易受到音频编解码器应用的去除攻击。大多数生成的语音和音频内容在发布到野外时都会通过音频编解码器作为分发方法。我们最近提出了协作水印作为一种方法,使生成的语音在噪声但可微分的传输通道上更容易被检测到。本文扩展了通道增强以与非可微分的传统音频编解码器和神经音频编解码器一起工作,并评估了各种配置下的编解码器比特率的可转移性和影响。结果表明,协作水印可以通过使用波形域直通估计器进行梯度近似,可靠地通过黑箱音频编解码器进行增强。此外,结果显示,使用神经音频编解码器的通道增强可以很好地转移到传统编解码器上。听力测试表明,协作水印在高比特率编解码器或DAC在8kbps时几乎不会引起感知降级。