LLM2D
dMel:简化语音分词
dMel: Speech Tokenization made Simple
作者: He Bai, Tatiana Likhomanenko, Ruixiang Zhang, Zijin Gu, Zakaria Aldeneh, Navdeep Jaitly
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2407.15835v2

摘要

大型语言模型通过利用海量文本数据的自监督预训练,彻底改变了自然语言处理领域。受此成功的启发,研究人员探索了复杂的语音标记化方法,将连续语音信号离散化,以便将语言建模技术应用于语音数据。然而,现有的方法要么对语义(内容)标记进行建模,可能丢失声学信息,要么对声学标记进行建模,可能丢失语义(内容)信息。多种标记类型还会使架构变得复杂,并需要额外的预训练。本文表明,将梅尔滤波器组通道离散化为离散强度 bin 可以生成一种简单表示(dMel),其性能优于其他现有的语音标记化方法。使用用于语音-文本建模的 LM 风格的 Transformer 架构,我们对语音识别 (ASR) 和语音合成 (TTS) 中的不同语音标记化方法进行了全面评估。我们的结果证明了 dMel 在统一框架内实现两种任务的高性能的有效性,为高效且有效的语音和文本联合建模铺平了道路。