LLM2D
半监督学习在鲁棒语音评估中的应用
Semi-supervised Learning For Robust Speech Evaluation
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.14666v1

摘要

arXiv:2409.14666v1 公告类型: 新 摘要: 语音评估通过自动模型来衡量学习者的口语水平。用于训练此类模型的语料库通常面临稀疏性挑战,因为教师提供的评分数据通常有限,且不同水平的学生群体之间的评分分布往往不平衡。因此,在面对代表性不足的样本或分布外样本时,自动评分系统不够稳健,而这些情况在实际部署场景中不可避免地存在。本文提出通过利用半监督预训练和目标正则化来近似主观评估标准,以解决这些挑战。特别是,使用归一化互信息来量化学习者和参考样本的语音特征。通过伪标签训练锚模型来预测发音的正确性。提出了一种插值损失函数,不仅最小化与真实分数的预测误差,还最小化语音评估模型和锚模型估计的两个概率分布之间的差异。与公开数据集上的其他最先进方法相比,该方法不仅在整个测试集上表现出色,而且在不同水平上实现了最均匀的预测误差分布。此外,实证结果表明,该模型在分布外数据上的准确性也优于竞争基准。