LLM2D
结合X-向量和贝叶斯批处理主动学习:两级语音识别主动学习流水线
Combining X-Vectors and Bayesian Batch Active Learning: Two-Stage Active Learning Pipeline for Speech Recognition
作者: Ognjen Kundacina, Vladimir Vincan, Dragisa Miskovic
发布日期: 4/28/2025
arXiv ID: oai:arXiv.org:2406.02566v2

摘要

arXiv:2406.02566v2 Announce Type: replace-cross 摘要:本文介绍了一种用于自动语音识别(ASR)的新颖两阶段主动学习(AL)管道,将无监督和监督AL方法结合起来。第一阶段利用无监督AL方法,通过x-向量聚类从未标记的语音数据中选择多样化的样本,从而建立一个稳健的初始数据集,用于后续的监督AL。第二阶段结合了监督AL策略,并特别开发了一种适用于ASR的批处理AL方法,旨在选择多样化的和具有信息意义的样本批次。在这里,样本多样性也是通过x-向量聚类实现的,而最具信息意义的样本则是通过一种针对ASR的贝叶斯AL方法识别的,该方法使用了蒙特卡洛丢弃方法对贝叶斯推断进行了近似。这种方法能够实现精确的不确定性估计,从而显著减少数据需求的同时提升ASR模型的训练效果。我们的方法在同质、异质和OOD测试集上展示了优于竞争方法的性能,表明战略性样本选择和创新性的贝叶斯建模可以在基于深度学习的ASR应用中显著优化标签工作量和数据利用。