LLM2D

摘要

arXiv:2501.19321v1 公告类型: cross 摘要: 自监督学习（SSL）在深度学习中被用于在无需昂贵数据标签的情况下对大规模数据集进行训练。最近，诸如XLS-R等大型自动语音识别（ASR）模型利用SSL同时对一百多种不同语言进行训练。然而，进一步的研究表明，XLS-R的主要训练数据来自少数几种语言。通过SSL学习到的偏见已在多个领域中得到证实，但多语言SSL ASR中的语言偏见尚未得到彻底的检查。在本文中，我们利用彩票票假设（LTH）在XLS-R中识别出特定语言的子网络，并在多种不同语言上测试这些子网络的性能。我们能够证明，在微调过程中，XLS-R bypasses传统的语言知识，仅基于训练数据中贡献最大的语言所学到的权重进行构建。