摘要
arXiv:2502.10467v1 宣告类型: cross
摘要: 使用大规模语言模型(LLMs)生成音乐的领域正在迅速发展,但现有的音乐表示系统,如MIDI、ABC 符号和MusicXML,仍然过于复杂,难以有效地微调LLMs。这些格式由于其多样性和复杂的结构,对于机器和人类来说都难以解读。为了解决这些挑战,我们引入了YNote,这是一个简化后的音乐表示系统,仅使用四个字符来表示音符及其音高。YNote的固定格式确保了一致性,使其易于阅读,并更适合于微调LLMs。在我们的实验中,我们对一个经YNote编码的数据集微调了GPT-2(124M),分别得到了BLEU和ROUGE得分0.883和0.766。仅仅使用两个音符作为提示,该模型就能够生成连贯且具有风格相关性的音乐。我们认为YNote为机器学习应用提供了一种实用的替代现有的音乐表示方式,并且有可能显著提高使用LLMs生成音乐的质量。