LLM2D
基于深度学习的机器翻译中利用翻译记忆预测锚定文本
Predicting Anchored Text from Translation Memories for Machine Translation Using Deep Learning Methods
作者: Richard Yue, John E. Ortega
发布日期: 9/27/2024
arXiv ID: oai:arXiv.org:2409.17939v1

摘要

翻译记忆库(TM)是称为计算机辅助翻译(CAT)工具的专业翻译工具的核心。为了使用 CAT 工具进行翻译,译者使用 TM 收集与待翻译的片段 (s') 类似的翻译。许多 CAT 工具提供模糊匹配算法来定位 TM 中与 s' 距离接近的片段 (s)。在定位到两个相似片段后,CAT 工具将呈现包含源语言中一个片段及其目标语言翻译的平行片段 (s, t)。此外,CAT 工具包含模糊匹配修复 (FMR) 技术,这些技术将自动使用 TM 中的平行片段来创建新的 TM 条目,其中包含原始片段的修改版本,其想法是它将是 s' 的翻译。大多数 FMR 技术使用机器翻译作为“修复”那些必须修改的词语的一种方式。在本文中,我们展示了对于那些固定词语的大部分,我们可以使用其他基于机器学习方法的技术,例如 Word2Vec、BERT,甚至 ChatGPT。具体来说,我们展示了对于遵循连续词袋 (CBOW) 范式的固定词语,Word2Vec、BERT 和 GPT-4 可以用于实现与神经机器翻译相似的,在某些情况下甚至更好的结果,用于将法语固定词语翻译成英语。