LLM2D

摘要

arXiv:2410.20941v4 公告类型: 替换-交叉摘要：大型语言模型（LLMs）在各种自然语言处理（NLP）任务中表现出色，包括机器翻译（MT），但大多数研究主要集中在句级翻译上。本工作探索指令调整的LLM在文档级翻译（docMT）方面的固有能力。与以往需要专门技术的方法不同，我们通过直接提示LLMs一次性翻译整个文档来进行评估。结果显示，这种方法在翻译质量上优于逐句翻译的方式，即使没有文档级微调也是如此。然而，这种优势在BLEU分数中并未体现，因为BLEU分数常常更偏向于句级翻译。我们提出了使用LLM作为裁判的评估方法，其中使用GPT-4以更细腻的方式评估文档的一致性、准确性和流畅性，而不是依赖n-gram为基础的度量标准。总的来说，我们的工作证明了指令调整的LLM可以有效利用文档上下文进行翻译。然而，我们警告不应使用BLEU分数来评估docMT，因为它们往往提供误导性的结果，未能捕捉到文档级翻译的质量。LLM-as-judge的代码和GPT4-as-judge的输出可在https://github.com/EIT-NLP/BLEUless_DocMT找到。