摘要
arXiv:2404.05659v3 宣告类型: 替换-交叉
摘要:由于隐私限制,医疗领域的公开语音识别数据集短缺。在这项工作中,我们介绍了 VietMed - 一个包含16小时带标签的医疗语音、1000小时未带标签的医疗语音和1200小时未带标签的一般领域语音的越南语音识别数据集。据我们所知,基于七个方面来看,VietMed 是目前世界上规模最大的公共医疗语音识别数据集:总时长、讲者数量、疾病、记录条件、讲者角色、独特的医疗术语和口音。此外,在总时长方面,VietMed 也是目前规模最大的公共越南语音数据集。另外,我们首次展示了涵盖所有ICD-10疾病组和国家内所有口音的医疗语音识别数据集。此外,我们发布了第一个公开的大规模预训练模型 w2v2-Viet 和 XLSR-53-Viet,以及第一个公开的大规模微调模型用于医疗语音识别。即使在预训练阶段没有使用任何医疗数据,我们的最佳预训练模型 XLSR-53-Viet 在测试集上的错误率从 51.8% 降至 29.6%(相对减少超过 40%),非常擅长医疗领域。所有代码、数据和模型都已公开:https://github.com/leduckhai/MultiMed/tree/master/VietMed。