摘要
arXiv:2409.13582v1 公告类型: 交叉 摘要: 语音不流畅建模是一项检测语音中不流畅现象的任务,如重复、阻塞、插入、替换和删除。最近的进展大多将此问题视为基于时间的对象检测问题。在这项工作中,我们从新的角度重新审视了这个问题:将不流畅现象标记化,并将检测问题建模为基于标记的自动语音识别(ASR)问题。我们提出了基于规则的语音和文本不流畅模拟器,并开发了VCTK-token,然后开发了类似Whisper的seq2seq架构,以构建一个性能良好的新基准。我们还系统地比较了我们提出的基于标记的方法与基于时间的方法,并提出了一个统一的基准,以促进未来的研究工作。我们为更广泛的科学界开源了这些资源。项目页面可在https://rorizzz.github.io/获取。