LLM2D
机器能否区分语音中高低程度的社会性吱吱声?
Can a Machine Distinguish High and Low Amount of Social Creak in Speech?
作者: Anne-Maria Laukkanen, Sudarsana Reddy Kadiri, Shrikanth Narayanan, Paavo Alku
发布日期: 10/23/2024
arXiv ID: oai:arXiv.org:2410.17028v1

摘要

目标:多项研究报道,女性说话者中社会性摩擦音的发生率有所增加。以往对社会性摩擦音的研究,是将语音的感知评估与传统的声学参数(如谐波噪声比和倒谱峰值突出度)结合起来进行的。在本研究中,我们使用机器学习 (ML) 自动区分社会性摩擦音含量低和高的语音。方法:首先,由两位语音专家对90位芬兰语女性说话者产生的连续语音样本中的摩擦音含量进行感知评估。根据他们的评估,将语音样本分为两类(摩擦音含量低与高)。利用语音信号及其摩擦音标签,训练了七种不同的机器学习模型。每种模型都使用了三种频谱表示作为特征。结果:结果表明,以下两种系统获得了最佳性能(准确率为71.1%):使用梅尔谱图特征的Adaboost分类器和使用梅尔频率倒谱系数特征的决策树分类器。结论:社会性摩擦音的研究在社会语言学和发声学研究中越来越受到关注。传统的摩擦音含量人工感知评估费时费力,因此机器学习技术可以用来辅助研究社会性摩擦音的研究人员。本研究中报告的分类系统可以被认为是未来基于机器学习的社会性摩擦音研究的基准。