摘要
arXiv:2502.11840v1 交叉公告类型
摘要:和弦识别在音乐信息检索中起着关键作用,因为和弦在音乐分析中的抽象性和描述性。虽然音频和弦识别系统在小型词汇表(例如,大三和小三和弦)上已经达到了显著的准确性,但大词汇表和弦识别仍然是一个具有挑战性的问题。这种复杂性也源于和弦固有的长尾分布,其中罕见和弦类型在大多数数据集中代表性不足,导致缺乏足够的训练样本。有效的和弦识别需要利用音频序列的上下文信息,但现有的模型,如卷积神经网络、双向长短期记忆网络和双向变换器的组合,在捕捉长期依赖关系方面存在局限性,并且在大词汇表和弦识别任务上表现出次优性能。本文提出了一种新的 ChordFormer 架构,旨在解决大型词汇表的结构性和弦识别(例如,三和弦、低音、七和弦)问题。ChordFormer 利用结合卷积神经网络和变换器的 conformer 块,从而使模型能够有效地捕捉局部模式和全局依赖关系。通过采用重权损失函数和结构化的和弦表示来应对类别不平衡等挑战,ChordFormer 在大词汇表和弦数据集上优于现有最佳模型,达到了帧准确率提升2%和类别准确率提升6%的效果。此外,ChordFormer 在处理类别不平衡方面表现出色,提供了稳健且平衡的和弦类型识别。这种方法填补了理论音乐知识与实际应用之间的差距,推动了大词汇表和弦识别领域的发展。