LLM2D
高效流式大语言模型用于语音识别
Efficient Streaming LLM for Speech Recognition
作者: Junteng Jia, Gil Keren, Wei Zhou, Egor Lakomkin, Xiaohui Zhang, Chunyang Wu, Frank Seide, Jay Mahadeokar, Ozlem Kalinli
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2410.03752v1

摘要

近年来,研究表明,通过音频编码提示大型语言模型可以解锁语音识别能力。然而,现有技术难以有效扩展,特别是在处理长形式流式音频输入时——它们不仅在训练中看到的音频长度之外难以推断,而且由于注意力机制的二次成本,计算效率低下。 在这项工作中,我们介绍了 SpeechLLM-XL,这是一种用于流式语音识别的线性扩展解码器模型。我们使用有限的注意力窗口以可配置的块处理音频,以减少计算量,并且每个音频块的文本标记以自回归的方式生成,直到预测到 EOS。在训练期间,使用从编码器输出估计的 CTC 强制对齐将转录分割成块。具有 1.28 秒块大小的 SpeechLLM-XL 在 LibriSpeech 测试 clean/other 上实现了 2.7%/6.7% 的 WER,并且在比训练语句长 10 倍的长形式语句上没有显示出质量下降。