摘要
arXiv:2501.15442v2 通知类型: 交叉替换
摘 要: Amphion 是一个开源工具包,用于音频、音乐和语音生成,旨在降低这些领域初级研究人员和工程师的入门门槛。它提供了一个多功能框架,支持多种生成任务和模型。在本报告中,我们介绍了 Amphion v0.2,这是 2024 年开发的第二个主要发布版本。此版本包括一个 100 万小时的多语言开源数据集、稳健的数据准备流水线以及用于文本转语音、音频编码和语音转换等任务的新模型。此外,报告还包含了多个教程,引导用户了解新发布的模型的功能及其使用方法。