LLM2D

摘要

缺乏标注数据是语音分类任务中常见的挑战，尤其是那些需要大量主观评估的任务，例如认知状态分类。在这项工作中，我们提出了一种半监督学习（SSL）框架，引入了一种新颖的多视图伪标签方法，该方法利用声学和语言特征来选择最可靠的数据来训练分类模型。在声学方面，使用多个音频编码器生成的嵌入计算出的弗雷谢音频距离来比较未标注数据和标注数据。在语言方面，大型语言模型被提示修改自动语音识别转录并根据我们提出的任务特定知识预测标签。当来自这两个来源的伪标签一致时，就会识别出高置信度数据，而当不一致时，则被视为低置信度数据。然后训练一个双峰分类器，对低置信度数据进行迭代标记，直到满足预定义的标准。我们在情绪识别和痴呆症检测任务上评估了我们的 SSL 框架。实验结果表明，我们的方法在仅使用 30% 的标注数据的情况下，与完全监督学习相比，取得了具有竞争力的性能，并且明显优于两个选定的基线。