摘要
arXiv:2504.16601v1 交叉公告类型:交叉
摘要:本研究评估了大语言模型(LLMs)和传统机器翻译(MT)工具将英语中的医疗咨询摘要翻译成阿拉伯语、中文和越南语的效果。该研究使用标准自动评估指标评估了面向患者和面向医生的文本。结果显示,传统MT工具在整体上表现更好,尤其是在复杂文本方面,而LLMs在翻译简洁摘要时表现突出,特别是在越南语和中文方面。阿拉伯语的翻译随着复杂性的增加而改善,这是由于该语言的形态学特征。总体而言,尽管LLMs提供了上下文灵活性,但它们仍然表现出不一致性,当前的评估指标未能捕捉临床相关性。该研究强调了在医疗翻译中需要进行领域特定的培训、改进评估方法以及人类监督的重要性。