LLM2D

摘要

arXiv:2502.04230v1 宣称类型: cross 摘要：生成音频合成和编辑技术的迅速普及引发了关于版权侵犯、数据来源以及通过深度假音传播虚假信息的重大关注。水印提供了一种主动解决方案，通过在音频内容中嵌入不可察觉但可识别和追踪的标记。尽管最近的神经网络基水印方法如WavMark和AudioSeal在提高稳健性和质量方面取得了进展，但它们难以同时实现稳健检测和精确归因。本文介绍了跨注意机制稳健音频水印(XAttnMark)，通过在生成器和检测器之间共享部分参数、使用跨注意力机制高效检索消息以及使用时间条件模块改善消息分布来弥补这一差距。此外，我们提出了一种与听觉掩蔽效应对齐的时间-频率掩蔽损失，提高了水印的不可察觉性。我们的方法在检测和归因方面都达到了最先进的性能，展示了对各种音频变换的强大鲁棒性，包括具强编辑强度的具有挑战性的生成编辑。项目网页可在 https://liuyixin-louis.github.io/xattnmark/访问。