摘要
arXiv:2501.15877v3 Announce Type: replace-cross
摘要:需要多样化的高质量口吃语音数据的需求日益增长,尤其是在印度语言的背景下。本文介绍了 Project Boli,这是一个多语言口吃语音数据集,旨在促进对口吃者及其技术开发的理解,尤其是针对印度的口吃者。该数据集包含以下内容:(a) 匿名的元数据(性别、年龄、国家、母语)以及关于口吃如何影响他们日常生活的问题问卷的回复,(b) 对每位参与者既进行了使用 Rainbow Passage 的朗读语音的录制,也进行了通过图像描述任务的自发语音的录制,以及 (c) 包含五种口吃类型的详细注释:阻塞、延长、插入、音素重复和词重复。我们对数据集进行了全面分析,包括数据收集过程、口吃者的经验总结、口吃事件的严重程度评估以及收集数据的技术验证。该数据集作为开放访问发布,以进一步促进语音技术的发展。