LLM2D

摘要

arXiv:2501.15877v3 Announce Type: replace-cross 摘要：需要多样化的高质量口吃语音数据的需求日益增长，尤其是在印度语言的背景下。本文介绍了 Project Boli，这是一个多语言口吃语音数据集，旨在促进对口吃者及其技术开发的理解，尤其是针对印度的口吃者。该数据集包含以下内容：(a) 匿名的元数据（性别、年龄、国家、母语）以及关于口吃如何影响他们日常生活的问题问卷的回复，(b) 对每位参与者既进行了使用 Rainbow Passage 的朗读语音的录制，也进行了通过图像描述任务的自发语音的录制，以及 (c) 包含五种口吃类型的详细注释：阻塞、延长、插入、音素重复和词重复。我们对数据集进行了全面分析，包括数据收集过程、口吃者的经验总结、口吃事件的严重程度评估以及收集数据的技术验证。该数据集作为开放访问发布，以进一步促进语音技术的发展。