摘要
语言模型需要分词的输入。然而,针对音频和视觉等连续数据的分词策略通常基于简单的启发式方法,例如固定大小的卷积或离散聚类,这些方法并不一定与数据的语义结构相符。特别是对于语音,波形的超高分辨率(每秒 16,000 个样本或更多)带来了重大挑战,因为基于语音的语言模型不得不使用比基于文本的语言模型多出数倍的词元。在这项工作中,我们提出了一种可控的自监督技术,将语音表示合并成更粗的类似音节的单元,同时仍然保留语义信息。我们通过以下步骤实现:1) 通过分析预训练编码器损失中的相关性来提取噪声边界,以及 2) 使用一种新颖的蒸馏技术迭代地改进模型表示。我们的方法以低至 5Hz 和 60bps 的速度生成可控速率的语义单元,并在音节分割和聚类方面取得了最先进的成果。利用这些粗粒度的词元,我们成功地训练了 SyllableLM,这是一种语音语言模型(SpeechLM),在各种口语建模任务中达到了或超过了当前最先进的 SpeechLM。SyllableLM 还显著提高了效率,训练计算量减少了 30 倍,推理速度提高了 4 倍。