LLM2D

摘要

arXiv:2409.13582v1 公告类型: 交叉摘要: 语音不流畅建模是一项检测语音中不流畅现象的任务，如重复、阻塞、插入、替换和删除。最近的进展大多将此问题视为基于时间的对象检测问题。在这项工作中，我们从新的角度重新审视了这个问题：将不流畅现象标记化，并将检测问题建模为基于标记的自动语音识别（ASR）问题。我们提出了基于规则的语音和文本不流畅模拟器，并开发了VCTK-token，然后开发了类似Whisper的seq2seq架构，以构建一个性能良好的新基准。我们还系统地比较了我们提出的基于标记的方法与基于时间的方法，并提出了一个统一的基准，以促进未来的研究工作。我们为更广泛的科学界开源了这些资源。项目页面可在https://rorizzz.github.io/获取。