摘要
arXiv:2502.08939v1 Announce Type: 切分类型
摘要:近期在神经音频编解码器方面的进展使得在语音生成任务中使用令牌化的音频表示成为可能,如文本转语音、文本转音频和文本转音乐生成。基于这种方法,我们提出了一种新的神经合成器 TokenSynth,它利用仅解码器的变压器从 MIDI 令牌和 CLAP(对比语言-音频预训练)嵌入生成所需的音频令牌,CLAP 嵌入包含了音色相关的信息。我们的模型在无需微调的情况下可以执行乐器克隆、文本到乐器合成以及文本引导的音色操纵。这种灵活性使得声音设计多样化和直观的音色控制成为可能。我们使用客观指标评估了合成音频的质量、合成音频与目标音频/文本的音色相似度以及合成精度(即其如何准确地遵循输入的 MIDI)。TokenSynth 显示了利用先进的神经音频编解码器和变压器创建强大且多功能的神经合成器的潜力。相关源代码、模型权重和音频演示可在以下网址获取:https://github.com/KyungsuKim42/tokensynth