LLM2D

摘要

arXiv:2406.02566v2 Announce Type: replace-cross 摘要：本文介绍了一种用于自动语音识别（ASR）的新颖两阶段主动学习（AL）管道，将无监督和监督AL方法结合起来。第一阶段利用无监督AL方法，通过x-向量聚类从未标记的语音数据中选择多样化的样本，从而建立一个稳健的初始数据集，用于后续的监督AL。第二阶段结合了监督AL策略，并特别开发了一种适用于ASR的批处理AL方法，旨在选择多样化的和具有信息意义的样本批次。在这里，样本多样性也是通过x-向量聚类实现的，而最具信息意义的样本则是通过一种针对ASR的贝叶斯AL方法识别的，该方法使用了蒙特卡洛丢弃方法对贝叶斯推断进行了近似。这种方法能够实现精确的不确定性估计，从而显著减少数据需求的同时提升ASR模型的训练效果。我们的方法在同质、异质和OOD测试集上展示了优于竞争方法的性能，表明战略性样本选择和创新性的贝叶斯建模可以在基于深度学习的ASR应用中显著优化标签工作量和数据利用。