摘要
arXiv:2501.16344v2 通知类型: 替换-交叉
摘要:当前的语音编码管道经常会依赖于额外的基于文本的语言模型(LM)以获得稳健的人类交流表示,即使最先进的语音到文本模型内部也包含语言模型。这项工作提出了一种方法,以改进内部音频模型的语言模型,使得后续的文本LM变得不再必要。我们引入了WhiSPA(Whisper具有语义和心理对齐),它利用了一个新的语音训练目标:对比损失,其中语言模型嵌入充当教师。使用超过50万段心理健康音频访谈,我们评估了将Whisper的潜在空间与文本自动编码器(SBERT)的语义表示以及从基本的心理维度(情感和个性)中派生的词汇嵌入对齐的效用。在自监督情感任务和下游的心理学任务中,WhiSPA超越了当前的语音编码器,分别实现了73.4%和83.8%的平均错误率降低。WhiSPA表明,在获得丰富的人类交流的心理表征时,不一定需要在语音到文本输出上运行后续的文本LM。