LLM2D
让网络决定学习什么:基于大规模对抗预训练的符号音乐理解模型
Let Network Decide What to Learn: Symbolic Music Understanding Model Based on Large-scale Adversarial Pre-training
作者: Zijian Zhao
发布日期: 5/1/2025
arXiv ID: oai:arXiv.org:2407.08306v3

摘要

arXiv:2407.08306v3 宣告类型: 替换-交叉 摘要:作为音乐信息检索(MIR)的关键方面,符号音乐理解(SMU)因其有可能帮助音乐家和爱好者学习和创作音乐而引起了高度重视。最近,由于符号音乐和自然语言之间存在实质性的相似性,以及这些模型能够有效地利用有限的音乐数据,预训练语言模型在SMU中得到了广泛应用。然而,一些研究显示,像Masked Language Model (MLM)这样的常见预训练方法可能会引入类似种族歧视的偏差问题,在自然语言处理(NLP)中影响下游任务的性能,这也发生在SMU中。这种偏差常常发生在无法从上下文中推断出遮罩标记时,迫使模型过度拟合训练集而不是泛化。为了应对这一挑战,我们提出了Adversarial-MidiBERT,该模型通过一个遮罩网络自适应地决定在MLM过程中遮罩什么内容,而不是使用随机遮罩。通过避免遮罩难以从上下文中推断的标记,我们的模型更好地捕获了上下文结构和关系,而不是仅仅遵循训练数据分布。我们在四个SMU任务中评估了我们的方法,我们的方法在所有情况下都表现出色。我们的模型代码已经在https://github.com/RS2002/Adversarial-MidiBERT 公开可用。