摘要
大型语言模型(LLMs)在机器翻译(MT)方面取得了显著的质量提升。然而,目前大多数关于 MT-LLMs 的研究在处理整个文档时,仍然面临着保持翻译一致性和准确性的重大挑战。本文介绍了 DelTA,一个旨在克服这些局限性的文档级翻译代理。DelTA 具有一个多级记忆结构,它存储跨不同粒度和跨度的信息,包括专有名词记录、双语摘要、长期记忆和短期记忆,这些记忆由辅助的基于 LLMs 的组件不断检索和更新。实验结果表明,DelTA 在翻译一致性和质量方面显著优于四个开源/闭源 LLMs 和两个代表性文档翻译数据集上的强基线,一致性得分平均提高了 4.58 个百分点,COMET 得分平均提高了 3.16 个百分点。DelTA 采用逐句翻译策略,确保没有句子遗漏,并提供了一种与主流方法相比的内存高效解决方案。此外,DelTA 提高了代词翻译的准确性,代理的摘要组件也显示出作为基于查询的摘要任务工具的潜力。我们在 https://github.com/YutongWang1216/DocMTAgent 上发布了我们的代码和数据。