LLM2D

摘要

arXiv:2409.12388v1 公告类型: 交叉摘要: 多说话者语音识别（MTASR）在分离和转录重叠语音方面面临独特挑战。为应对这些挑战，本文探讨了在结合序列化输出训练（SOT）用于MTASR时，连接主义时间分类（CTC）在说话者分离中的作用。我们的可视化结果显示，CTC引导编码器在声学嵌入的不同时间区域中表示不同的说话者。基于这一发现，我们提出了一种新颖的说话者感知CTC（SACTC）训练目标，基于贝叶斯风险CTC框架。SACTC是专为多说话者场景设计的CTC变体，它通过约束编码器在特定时间帧表示不同说话者的标记，显式地建模说话者分离。当与SOT结合时，SOT-SACTC模型在各种程度的语音重叠情况下始终优于标准的SOT-CTC。具体而言，我们观察到整体词错误率相对减少了10%，低重叠语音减少了15%。这项工作代表了基于CTC的多说话者语音识别任务增强的初步探索，为多说话者语音识别中的说话者分离提供了新的视角。