LLM2D

摘要

人工智能和机器学习的进步显著提升了合成语音的生成能力。本文探讨了扩散模型，一种用于创建逼真合成语音的新方法。我们利用现有的工具和预训练模型创建了一个扩散数据集。此外，本研究评估了扩散生成的深度伪造与非扩散生成的深度伪造的质量，以及它们对当前深度伪造检测系统的潜在威胁。研究结果表明，基于扩散的深度伪造的检测与非扩散的深度伪造大体相当，但存在一些基于检测器架构的差异。使用扩散声码器重新编码对检测结果的影响很小，总体语音质量与非扩散方法相当。