LLM2D

摘要

arXiv:2502.13128v1 类别：交叉学科摘要：文本到歌曲生成，即从文本输入中生成人声和伴奏的任务，由于领域复杂性和数据稀缺性，面临着巨大的挑战。现有方法通常采用多阶段生成过程，导致训练和推理管道复杂繁琐。在本文中，我们提出了一种名为SongGen的完全开源单阶段自回归变换器，专门用于可控歌曲生成。该提出的模型细粒度地控制了多种音乐属性，包括歌词、乐器描述、风格、情绪和音色，同时也提供了一个可选的三秒参考片段用于声音克隆。在统一的自回归框架下，SongGen 支持两种输出模式：混合模式，直接生成人声和伴奏的混合物；单轨模式，分别合成它们，以在下游应用中提供更大的灵活性。我们在每种模式下探索了多样化的令牌模式策略，取得了显著的改进和有价值的见解。此外，我们设计了一个有效的数据预处理自动化管道，进行质量控制。为了促进社区参与和未来研究，我们将发布我们的模型权重、训练代码、标注数据和预处理管道。生成样本将在我们的项目页面 https://liuzh-19.github.io/SongGen/ 上展示，代码将发布在 https://github.com/LiuZH-19/SongGen 。