摘要
arXiv:2502.13128v1 类别:交叉学科
摘要:文本到歌曲生成,即从文本输入中生成人声和伴奏的任务,由于领域复杂性和数据稀缺性,面临着巨大的挑战。现有方法通常采用多阶段生成过程,导致训练和推理管道复杂繁琐。在本文中,我们提出了一种名为SongGen的完全开源单阶段自回归变换器,专门用于可控歌曲生成。该提出的模型细粒度地控制了多种音乐属性,包括歌词、乐器描述、风格、情绪和音色,同时也提供了一个可选的三秒参考片段用于声音克隆。在统一的自回归框架下,SongGen 支持两种输出模式:混合模式,直接生成人声和伴奏的混合物;单轨模式,分别合成它们,以在下游应用中提供更大的灵活性。我们在每种模式下探索了多样化的令牌模式策略,取得了显著的改进和有价值的见解。此外,我们设计了一个有效的数据预处理自动化管道,进行质量控制。为了促进社区参与和未来研究,我们将发布我们的模型权重、训练代码、标注数据和预处理管道。生成样本将在我们的项目页面 https://liuzh-19.github.io/SongGen/ 上展示,代码将发布在 https://github.com/LiuZH-19/SongGen 。