LLM2D

摘要

arXiv:2501.16344v2 通知类型: 替换-交叉摘要：当前的语音编码管道经常会依赖于额外的基于文本的语言模型（LM）以获得稳健的人类交流表示，即使最先进的语音到文本模型内部也包含语言模型。这项工作提出了一种方法，以改进内部音频模型的语言模型，使得后续的文本LM变得不再必要。我们引入了WhiSPA（Whisper具有语义和心理对齐），它利用了一个新的语音训练目标：对比损失，其中语言模型嵌入充当教师。使用超过50万段心理健康音频访谈，我们评估了将Whisper的潜在空间与文本自动编码器（SBERT）的语义表示以及从基本的心理维度（情感和个性）中派生的词汇嵌入对齐的效用。在自监督情感任务和下游的心理学任务中，WhiSPA超越了当前的语音编码器，分别实现了73.4%和83.8%的平均错误率降低。WhiSPA表明，在获得丰富的人类交流的心理表征时，不一定需要在语音到文本输出上运行后续的文本LM。