LLM2D
基于可重复的机器学习的语音病理检测:引入音高差特征
Reproducible Machine Learning-based Voice Pathology Detection: Introducing the Pitch Difference Feature
作者: Jan Vrba, Jakub Steinbach, Tom\'a\v{s} Jirsa, Laura Verde, Roberta De Fazio, Yuwen Zeng, Kei Ichiji, Luk\'a\v{s} H\'ajek, Zuzana Sedl\'akov\'a, Zuzana Urb\'aniov\'a, Martin Chovanec, Jan Mare\v{s}, Noriyasu Homma
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2410.10537v2

摘要

arXiv:2410.10537v2 语音病理检测类型:替换交叉 摘要:本研究介绍了使用公开可用的Saarbr\"ucken语音数据库(SVD)数据库和结合常用声学手工特征与两个新型特征(音高差和NaN特征,即失败的基频估计)的稳健特征集的新方法。我们使用网格搜索方法评估了六种机器学习(ML)分类器——支持向量机、k-近邻、朴素贝叶斯、决策树、随机森林和AdaBoost,并使用了选定分类器的可行超参数和20480种不同的特征子集进行评估。针对每种分类器类型,我们使用重复分层交叉验证验证了排序前1000的分类器-特征子集组合。为了解决类别不平衡问题,我们应用了K-Means SMOTE方法来扩充训练数据。 我们的方法取得了出色的表现,分别达到了85.61%、84.69%和85.22%的未加权平均召回率(UAR)(针对女性、男性和综合结果);我们故意省略了准确率,因为不平衡数据的准确性是一个高度偏倚的指标。这一进展表明机器学习方法在临床应用中具有显著的潜力,可以作为客观评估语音病理的一种有价值的辅助工具。为了使我们的方法使用更加便捷,并支持我们的主张,我们提供了一个公开可用的GitHub存储库,其中包含DOI 10.5281/zenodo.13771573。最后,我们提供了一个REFORMS清单,以提高我们的方法的可读性、可重复性和可验证性。