LLM2D

摘要

本文探讨了从零开始训练基于 Conformer 的大规模语音识别模型的低秩权重训练这一未充分探索的领域。我们的研究证明了这种训练范式对于此类模型的可行性，并得出了一些值得注意的发现。首先，我们发现，仅将低秩结构应用于注意力模块，即使秩大幅降低 12%，也能意外地提高性能。相比之下，前馈层则面临更大的挑战，因为它们在秩降低 50% 时就开始出现性能下降。此外，我们发现初始化和逐层秩分配在低秩训练的成功中起着至关重要的作用。具体来说，采用 SVD 初始化和线性逐层秩映射可以显著提高低秩权重训练的有效性。基于这些见解，我们引入了从零开始的低秩语音模型 (LR-SMS)，该方法实现了与全秩训练相当的性能，同时显著减少了参数数量（至少减少 2 倍）并加快了训练速度（ASR 速度提高 1.3 倍，AVSR 速度提高 1.15 倍）。