LLM2D

摘要

arXiv:2504.03546v1 类型: cross 摘要: 多语言医疗语音翻译（ST）通过在语言障碍中实现高效的交流，缓解专业人力资源短缺，并在特别是在疫情期间，促进了诊断和治疗的改进。在本文中，我们提出了截至目前我们所知的第一个系统性医疗ST研究，通过发布MultiMed-ST，一个大规模医疗领域的ST数据集，该数据集涵盖了五个语言的所有翻译方向：越南语、英语、德语、法语、繁体中文和简体中文，以及相应的模型。数据集中包含290,000个样本，是我们所知的最大的医疗机器翻译（MT）数据集，也是所有领域中最大的多到多的多语言ST数据集。其次，我们呈现了迄今为止在ST研究中最广泛的研究分析，包括：经验对照基线、双语-多语对照研究、端到端与级联对照研究、任务特定与多任务序列到序列（seq2seq）对照研究、代码切换分析以及定量-定性错误分析。所有代码、数据和模型都可以在线获取：https://github.com/leduckhai/MultiMed-ST。