LLM2D

摘要

arXiv:2404.05659v3 宣告类型: 替换-交叉摘要：由于隐私限制，医疗领域的公开语音识别数据集短缺。在这项工作中，我们介绍了 VietMed - 一个包含16小时带标签的医疗语音、1000小时未带标签的医疗语音和1200小时未带标签的一般领域语音的越南语音识别数据集。据我们所知，基于七个方面来看，VietMed 是目前世界上规模最大的公共医疗语音识别数据集：总时长、讲者数量、疾病、记录条件、讲者角色、独特的医疗术语和口音。此外，在总时长方面，VietMed 也是目前规模最大的公共越南语音数据集。另外，我们首次展示了涵盖所有ICD-10疾病组和国家内所有口音的医疗语音识别数据集。此外，我们发布了第一个公开的大规模预训练模型 w2v2-Viet 和 XLSR-53-Viet，以及第一个公开的大规模微调模型用于医疗语音识别。即使在预训练阶段没有使用任何医疗数据，我们的最佳预训练模型 XLSR-53-Viet 在测试集上的错误率从 51.8% 降至 29.6%（相对减少超过 40%），非常擅长医疗领域。所有代码、数据和模型都已公开：https://github.com/leduckhai/MultiMed/tree/master/VietMed。