LLM2D

摘要

语音流畅度建模是口语学习和语音治疗的核心模块。然而，目前存在三个挑战。首先，现有的最先进的解决方案\cite{lian2023unconstrained-udm, lian-anumanchipalli-2024-towards-hudm} 可扩展性差。其次，缺乏大规模的语音流畅度语料库。第三，缺乏有效的学习框架。本文提出了一种名为“可扩展语音流畅度建模 (SSDM)”的框架，该框架 (1) 采用发音手势作为可扩展的强制对齐；(2) 引入连接主义子序列对齐器 (CSA) 来实现流畅度对齐；(3) 引入一个名为 Libri-Dys 的大规模模拟语音流畅度语料库；(4) 利用大型语言模型 (LLM) 的强大功能，开发了一个端到端的系统。我们期望 SSDM 成为语音流畅度建模领域的标准。演示地址为\url{https://berkeley-speech-group.github.io/SSDM/}。