LLM2D
利用异音性在自我监督语音模型中进行非典型发音评估
Leveraging Allophony in Self-Supervised Speech Models for Atypical Pronunciation Assessment
作者: Kwanghee Choi, Eunjung Yeo, Kalvin Chang, Shinji Watanabe, David Mortensen
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2502.07029v2

摘要

arXiv:2502.07029v2 宣告类型: replace-cross 摘要:音位异化是指音位在其发音环境中的音素现实形式的变化。建模音位异化对于非典型发音评估至关重要,涉及区分非典型发音和典型发音。然而,最近基于音位分类的方法通常通过将各种实现视为单个音位来简化这一点,绕过了建模音位异化变异的复杂性。受到冻结自监督语音模型(S3M)特征的声学建模能力的启发,我们提出MixGoP,这是一种利用高斯混合模型来利用多个子聚类建模音位分布的新方法。我们的实验表明,在四个出五个数据集中,MixGoP 达到了最先进的性能,包括构音障碍和非母语发音。我们的分析进一步表明,S3M 特征比 MFCC 和梅尔谱图更有效地捕捉音位异化变异,强调了将 MixGoP 与 S3M 特征集成的优势。