LLM2D

摘要

翻译记忆库（TM）是称为计算机辅助翻译（CAT）工具的专业翻译工具的核心。为了使用 CAT 工具进行翻译，译者使用 TM 收集与待翻译的片段 (s') 类似的翻译。许多 CAT 工具提供模糊匹配算法来定位 TM 中与 s' 距离接近的片段 (s)。在定位到两个相似片段后，CAT 工具将呈现包含源语言中一个片段及其目标语言翻译的平行片段 (s, t)。此外，CAT 工具包含模糊匹配修复 (FMR) 技术，这些技术将自动使用 TM 中的平行片段来创建新的 TM 条目，其中包含原始片段的修改版本，其想法是它将是 s' 的翻译。大多数 FMR 技术使用机器翻译作为“修复”那些必须修改的词语的一种方式。在本文中，我们展示了对于那些固定词语的大部分，我们可以使用其他基于机器学习方法的技术，例如 Word2Vec、BERT，甚至 ChatGPT。具体来说，我们展示了对于遵循连续词袋 (CBOW) 范式的固定词语，Word2Vec、BERT 和 GPT-4 可以用于实现与神经机器翻译相似的，在某些情况下甚至更好的结果，用于将法语固定词语翻译成英语。