LLM2D
潮州野生:首个附有正写标注的潮州语数据集
Teochew-Wild: The First In-the-wild Teochew Dataset with Orthographic Annotations
作者: Linrong Pan, Chenglong Jiang, Gaoze Hou, Ying Gao
发布日期: 5/9/2025
arXiv ID: oai:arXiv.org:2505.05056v1

摘要

arXiv:2505.05056v1 交叉公告类型 摘要:本文报告了潮州野生语料库的构建,该语料库包含潮州方言的野外潮州语音数据,时长为18.9小时,涵盖多个说话人口音和形式化及非正式表达,并提供精确的音标和拼音注释。此外,我们还提供了一些补充文本处理工具和资源,以促进对这种低资源语言的语音任务研究和应用,如自动语音识别(ASR)和文本转语音(TTS)。据我们所知,这是我们公开发布的首个带有准确音标注释的潮州语数据集。我们在语料库上进行了实验,结果验证了其在ASR和TTS任务中的有效性。