LLM2D

摘要

近年来，研究表明，通过音频编码提示大型语言模型可以解锁语音识别能力。然而，现有技术难以有效扩展，特别是在处理长形式流式音频输入时——它们不仅在训练中看到的音频长度之外难以推断，而且由于注意力机制的二次成本，计算效率低下。在这项工作中，我们介绍了 SpeechLLM-XL，这是一种用于流式语音识别的线性扩展解码器模型。我们使用有限的注意力窗口以可配置的块处理音频，以减少计算量，并且每个音频块的文本标记以自回归的方式生成，直到预测到 EOS。在训练期间，使用从编码器输出估计的 CTC 强制对齐将转录分割成块。具有 1.28 秒块大小的 SpeechLLM-XL 在 LibriSpeech 测试 clean/other 上实现了 2.7%/6.7% 的 WER，并且在比训练语句长 10 倍的长形式语句上没有显示出质量下降。