LLM2D

摘要

arXiv:2502.10467v1 宣告类型: cross 摘要: 使用大规模语言模型（LLMs）生成音乐的领域正在迅速发展，但现有的音乐表示系统，如MIDI、ABC 符号和MusicXML，仍然过于复杂，难以有效地微调LLMs。这些格式由于其多样性和复杂的结构，对于机器和人类来说都难以解读。为了解决这些挑战，我们引入了YNote，这是一个简化后的音乐表示系统，仅使用四个字符来表示音符及其音高。YNote的固定格式确保了一致性，使其易于阅读，并更适合于微调LLMs。在我们的实验中，我们对一个经YNote编码的数据集微调了GPT-2（124M），分别得到了BLEU和ROUGE得分0.883和0.766。仅仅使用两个音符作为提示，该模型就能够生成连贯且具有风格相关性的音乐。我们认为YNote为机器学习应用提供了一种实用的替代现有的音乐表示方式，并且有可能显著提高使用LLMs生成音乐的质量。