LLM2D

摘要

将大型语言资源翻译成小型语言资源已成为一种广泛使用的方法。特别是在翻译由多个组成部分组成的复杂数据点时，通常会分别翻译每个组成部分。然而，我们认为这种做法往往忽视了同一数据点内各组成部分之间的相互关系。为了解决这一局限性，我们提出了一种新颖的机器翻译管道，该管道在实施机器翻译以用于训练数据时考虑了数据内部的关系。在我们的机器翻译管道中，数据点中的所有组成部分都被连接起来形成一个单一的翻译序列，并在翻译后被重建为数据组成部分。我们引入了催化剂语句（CS）来增强数据内部关系，并引入了指示符标记（IT）来帮助将翻译后的序列分解为其各自的数据组成部分。通过我们的方法，我们在翻译质量本身以及作为训练数据的有效性方面取得了显著的改进。与分别翻译每个数据组成部分的传统方法相比，我们的方法产生了更好的训练数据，从而提高了训练模型的性能，在 XGLUE 基准测试中的网页排名 (WPR) 任务中提高了 2.690 个点，在问题生成 (QG) 任务中提高了 0.845 个点。