LLM2D

摘要

近年来，文本转语音 (TTS) 技术的进步使得语音克隆 (VC) 变得更加逼真、经济实惠且易于获取。这引发了这项技术潜在的滥用，例如乔·拜登的新罕布什尔州深度伪造自动电话。人们提出了多种方法来检测此类克隆。然而，这些方法是在相对干净的数据库上进行训练和评估的。最近，ASVspoof 5 挑战赛引入了一个新的众包数据库，该数据库包含各种声学条件，包括各种欺骗攻击和编解码器条件。本文是我们对 ASVspoof 5 挑战赛的投稿，旨在研究音频欺骗检测的性能，该检测是使用通过洗钱攻击进行数据增强训练的，并在 ASVSpoof 5 数据库上进行评估。结果表明，我们的系统在 A18、A19、A20、A26 和 A30 欺骗攻击以及 C08、C09 和 C10 的编解码器和压缩条件下表现最差。