摘要
缺乏标注数据是语音分类任务中常见的问题,尤其是那些需要大量主观评估的任务,例如认知状态分类。在本研究中,我们提出了一种半监督学习(SSL)框架,引入了新颖的多视图伪标签方法,该方法利用声学和语言特征来选择最可靠的数据,用于训练分类模型。从声学上讲,使用弗雷歇音频距离将未标注数据与标注数据进行比较,该距离由多个音频编码器生成的嵌入计算得出。从语言学上讲,大型语言模型被提示修改自动语音识别转录并根据我们提出的特定任务知识预测标签。当来自两个来源的伪标签一致时,会识别出高置信度数据,而当不一致时,则视为低置信度数据。然后训练一个双模态分类器来迭代地标记低置信度数据,直到满足预定义的标准。我们在情感识别和痴呆症检测任务中评估了我们的 SSL 框架。实验结果表明,与仅使用 30% 标注数据的完全监督学习相比,我们的方法取得了具有竞争力的性能,并且显著优于两个选定的基线。