LLM2D
Amphion工具包概览(v0.2)
Overview of the Amphion Toolkit (v0.2)
作者: Jiaqi Li, Xueyao Zhang, Yuancheng Wang, Haorui He, Chaoren Wang, Li Wang, Huan Liao, Junyi Ao, Zeyu Xie, Yiqiao Huang, Junan Zhang, Zhizheng Wu
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2501.15442v2

摘要

arXiv:2501.15442v2 通知类型: 交叉替换 摘 要: Amphion 是一个开源工具包,用于音频、音乐和语音生成,旨在降低这些领域初级研究人员和工程师的入门门槛。它提供了一个多功能框架,支持多种生成任务和模型。在本报告中,我们介绍了 Amphion v0.2,这是 2024 年开发的第二个主要发布版本。此版本包括一个 100 万小时的多语言开源数据集、稳健的数据准备流水线以及用于文本转语音、音频编码和语音转换等任务的新模型。此外,报告还包含了多个教程,引导用户了解新发布的模型的功能及其使用方法。