摘要
arXiv:2504.03546v1 类型: cross
摘要: 多语言医疗语音翻译(ST)通过在语言障碍中实现高效的交流,缓解专业人力资源短缺,并在特别是在疫情期间,促进了诊断和治疗的改进。在本文中,我们提出了截至目前我们所知的第一个系统性医疗ST研究,通过发布MultiMed-ST,一个大规模医疗领域的ST数据集,该数据集涵盖了五个语言的所有翻译方向:越南语、英语、德语、法语、繁体中文和简体中文,以及相应的模型。数据集中包含290,000个样本,是我们所知的最大的医疗机器翻译(MT)数据集,也是所有领域中最大的多到多的多语言ST数据集。其次,我们呈现了迄今为止在ST研究中最广泛的研究分析,包括:经验对照基线、双语-多语对照研究、端到端与级联对照研究、任务特定与多任务序列到序列(seq2seq)对照研究、代码切换分析以及定量-定性错误分析。所有代码、数据和模型都可以在线获取:https://github.com/leduckhai/MultiMed-ST。