LLM2D

摘要

大型语言模型（LLMs）在机器翻译（MT）方面取得了显著的质量提升。然而，目前大多数关于 MT-LLMs 的研究在处理整个文档时，仍然面临着保持翻译一致性和准确性的重大挑战。本文介绍了 DelTA，一个旨在克服这些局限性的文档级翻译代理。DelTA 具有一个多级记忆结构，它存储跨不同粒度和跨度的信息，包括专有名词记录、双语摘要、长期记忆和短期记忆，这些记忆由辅助的基于 LLMs 的组件不断检索和更新。实验结果表明，DelTA 在翻译一致性和质量方面显著优于四个开源/闭源 LLMs 和两个代表性文档翻译数据集上的强基线，一致性得分平均提高了 4.58 个百分点，COMET 得分平均提高了 3.16 个百分点。DelTA 采用逐句翻译策略，确保没有句子遗漏，并提供了一种与主流方法相比的内存高效解决方案。此外，DelTA 提高了代词翻译的准确性，代理的摘要组件也显示出作为基于查询的摘要任务工具的潜力。我们在 https://github.com/YutongWang1216/DocMTAgent 上发布了我们的代码和数据。