LLM2D

摘要

大型语言模型通过利用海量文本数据的自监督预训练，彻底改变了自然语言处理领域。受此成功的启发，研究人员探索了复杂的语音标记化方法，将连续语音信号离散化，以便将语言建模技术应用于语音数据。然而，现有的方法要么对语义（内容）标记进行建模，可能丢失声学信息，要么对声学标记进行建模，可能丢失语义（内容）信息。多种标记类型还会使架构变得复杂，并需要额外的预训练。本文表明，将梅尔滤波器组通道离散化为离散强度 bin 可以生成一种简单表示（dMel），其性能优于其他现有的语音标记化方法。使用用于语音-文本建模的 LM 风格的 Transformer 架构，我们对语音识别 (ASR) 和语音合成 (TTS) 中的不同语音标记化方法进行了全面评估。我们的结果证明了 dMel 在统一框架内实现两种任务的高性能的有效性，为高效且有效的语音和文本联合建模铺平了道路。