LLM2D

摘要

arXiv:2504.16601v1 交叉公告类型：交叉摘要：本研究评估了大语言模型（LLMs）和传统机器翻译（MT）工具将英语中的医疗咨询摘要翻译成阿拉伯语、中文和越南语的效果。该研究使用标准自动评估指标评估了面向患者和面向医生的文本。结果显示，传统MT工具在整体上表现更好，尤其是在复杂文本方面，而LLMs在翻译简洁摘要时表现突出，特别是在越南语和中文方面。阿拉伯语的翻译随着复杂性的增加而改善，这是由于该语言的形态学特征。总体而言，尽管LLMs提供了上下文灵活性，但它们仍然表现出不一致性，当前的评估指标未能捕捉临床相关性。该研究强调了在医疗翻译中需要进行领域特定的培训、改进评估方法以及人类监督的重要性。