LLM2D
医学领域英泰语代码转换机器翻译的研究
On Creating an English-Thai Code-switched Machine Translation in Medical Domain
作者: Parinthapat Pengpun, Krittamate Tiankanon, Amrest Chinkamol, Jiramet Kinchagawat, Pitchaya Chairuengjitjaras, Pasit Supholkhan, Pubordee Aussavavirojekul, Chiraphat Boonnag, Kanyakorn Veerakanjana, Hirunkul Phimsiri, Boonthicha Sae-jia, Nattawach Sataudom, Piyalitt Ittichaiwong, Peerat Limkonchotiwat
发布日期: 10/23/2024
arXiv ID: oai:arXiv.org:2410.16221v1

摘要

医学领域的机器翻译(MT)在提高医疗质量和传播医学知识方面发挥着关键作用。尽管英泰机器翻译技术取得了进步,但常见的机器翻译方法由于无法精确翻译医学术语,在医学领域往往表现不佳。我们的研究不仅优先提高翻译准确性,还通过代码切换(CS)翻译来保持翻译文本中英文医学术语。我们开发了一种生成代码切换医学翻译数据的方法,用此数据微调了代码切换翻译模型,并将其性能与强大的基线(如谷歌神经机器翻译(NMT)和GPT-3.5/GPT-4)进行了评估。我们的模型在自动指标中表现出具有竞争力的性能,并在人工偏好评估中受到高度青睐。我们的评估结果还表明,即使略微影响流畅性,医疗专业人员也更倾向于保留关键英文术语的代码切换翻译。我们的代码和测试集已公开发布:https://github.com/preceptorai-org/NLLB_CS_EM_NLP2024。