摘要
arXiv:2410.20941v4 公告类型: 替换-交叉
摘要:大型语言模型(LLMs)在各种自然语言处理(NLP)任务中表现出色,包括机器翻译(MT),但大多数研究主要集中在句级翻译上。本工作探索指令调整的LLM在文档级翻译(docMT)方面的固有能力。与以往需要专门技术的方法不同,我们通过直接提示LLMs一次性翻译整个文档来进行评估。结果显示,这种方法在翻译质量上优于逐句翻译的方式,即使没有文档级微调也是如此。然而,这种优势在BLEU分数中并未体现,因为BLEU分数常常更偏向于句级翻译。我们提出了使用LLM作为裁判的评估方法,其中使用GPT-4以更细腻的方式评估文档的一致性、准确性和流畅性,而不是依赖n-gram为基础的度量标准。总的来说,我们的工作证明了指令调整的LLM可以有效利用文档上下文进行翻译。然而,我们警告不应使用BLEU分数来评估docMT,因为它们往往提供误导性的结果,未能捕捉到文档级翻译的质量。LLM-as-judge的代码和GPT4-as-judge的输出可在https://github.com/EIT-NLP/BLEUless_DocMT找到。