LLM2D
WhiSPA: 语义上和心理上对齐的 Whisper 与自我监督对比学习及学生-教师学习
WhiSPA: Semantically and Psychologically Aligned Whisper with Self-Supervised Contrastive and Student-Teacher Learning
作者: Rajath Rao, Adithya Ganesan, Oscar Kjell, Jonah Luby, Akshay Raghavan, Scott Feltman, Whitney Ringwald, Ryan L. Boyd, Benjamin Luft, Camilo Ruggero, Neville Ryant, Roman Kotov, H. Andrew Schwartz
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2501.16344v2

摘要

arXiv:2501.16344v2 通知类型: 替换-交叉 摘要:当前的语音编码管道经常会依赖于额外的基于文本的语言模型(LM)以获得稳健的人类交流表示,即使最先进的语音到文本模型内部也包含语言模型。这项工作提出了一种方法,以改进内部音频模型的语言模型,使得后续的文本LM变得不再必要。我们引入了WhiSPA(Whisper具有语义和心理对齐),它利用了一个新的语音训练目标:对比损失,其中语言模型嵌入充当教师。使用超过50万段心理健康音频访谈,我们评估了将Whisper的潜在空间与文本自动编码器(SBERT)的语义表示以及从基本的心理维度(情感和个性)中派生的词汇嵌入对齐的效用。在自监督情感任务和下游的心理学任务中,WhiSPA超越了当前的语音编码器,分别实现了73.4%和83.8%的平均错误率降低。WhiSPA表明,在获得丰富的人类交流的心理表征时,不一定需要在语音到文本输出上运行后续的文本LM。