LLM2D
基于说话人感知CTC的多说话人语音识别中的说话人解耦
Disentangling Speakers in Multi-Talker Speech Recognition with Speaker-Aware CTC
发布日期: 9/20/2024
arXiv ID: oai:arXiv.org:2409.12388v1

摘要

arXiv:2409.12388v1 公告类型: 交叉 摘要: 多说话者语音识别(MTASR)在分离和转录重叠语音方面面临独特挑战。为应对这些挑战,本文探讨了在结合序列化输出训练(SOT)用于MTASR时,连接主义时间分类(CTC)在说话者分离中的作用。我们的可视化结果显示,CTC引导编码器在声学嵌入的不同时间区域中表示不同的说话者。基于这一发现,我们提出了一种新颖的说话者感知CTC(SACTC)训练目标,基于贝叶斯风险CTC框架。SACTC是专为多说话者场景设计的CTC变体,它通过约束编码器在特定时间帧表示不同说话者的标记,显式地建模说话者分离。当与SOT结合时,SOT-SACTC模型在各种程度的语音重叠情况下始终优于标准的SOT-CTC。具体而言,我们观察到整体词错误率相对减少了10%,低重叠语音减少了15%。这项工作代表了基于CTC的多说话者语音识别任务增强的初步探索,为多说话者语音识别中的说话者分离提供了新的视角。