LLM2D

摘要

本报告概述了我们针对 WMT24 话语级文学翻译任务的方案，重点关注受限赛道中的中英语言对。翻译文学文本面临着重大挑战，因为这类作品中存在着细微的含义、习语表达和错综复杂的叙事结构。为了应对这些挑战，我们利用了中文 Llama2 模型，并通过持续预训练 (CPT) 和监督微调 (SFT) 的组合，专门增强了该模型以适应此任务。我们的方法包括一个新颖的增量解码框架，该框架确保每个句子在翻译时都考虑到其更广泛的语境，从而在整个文本中保持连贯性和一致性。这种方法使模型能够捕捉长距离依赖关系和风格元素，从而产生忠实保留原文文学质量的翻译。我们的实验表明，句级和文档级 BLEU 分数都有显著提高，这突出了我们提出的框架在解决文档级文学翻译复杂性方面的有效性。