LLM2D
渐进摇滚音乐分类
Progressive Rock Music Classification
作者: Arpan Nagar, Joseph Bensabat, Jokent Gaza, Moinak Dey
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2504.10821v1

摘要

arXiv:2504.10821v1 Announce Type: cross 摘要:本文研究了前卫摇滚音乐的分类问题,这种音乐风格以其复杂的编排和多样的乐器配置为特点,与其他音乐风格区分开来。为了解决这个音乐信息检索(MIR)任务,我们使用Librosa库从歌曲片段中提取了全面的音频特征,包括频谱图、梅尔频率倒谱系数(MFCC)、音阶图以及节拍位置。采用了一种赢家通吃投票策略,将片段级别的预测汇总为最终的歌曲分类。我们对比分析了各种机器学习技术。探索了集成方法,包括Bagging(随机森林、ExtraTrees、Bagging分类器)和Boosting(XGBoost、梯度提升),并利用主成分分析(PCA)进行降维处理以应对高维特征集带来的计算约束。此外,还探讨了深度学习方法,包括开发了特定层结构设计、归一化和激活函数的自定义1D卷积神经网络(1D CNN,分别命名为“Zuck”和“Satya”)。同时,我们还微调了最先进的音频光谱变换器(AST)模型,利用其基于注意力机制的方法进行音频分类。在验证集和测试集上的性能评估显示了不同模型的不同效果,集成方法如ExtraTrees在测试集上的准确率达到了76.38%。这项研究为前卫摇滚风格分类这一复杂任务提供了多样化机器学习范式的应用和相对性能的见解。