LLM2D

摘要

arXiv:2407.02208v2 宣告类型: replace-cross 摘要：网络爬取的大量平行数据中包含大量的噪声。作为噪声的主要来源，语义错位给训练机器翻译系统带来了挑战。本文中，我们首先介绍了一种通过语义相似性控制仿真的语义错位过程，这种方法与实际网络爬取语料库中的错位句子密切相关。在我们模拟的语义错位噪声设置下，我们定量分析了其对机器翻译的影响，并展示了广泛使用的预过滤器在噪声检测方面的有限效果。这突显了更细致处理难以检测的语义错位噪声的必要性。基于模型在标记级别上区分错位数据和干净数据的可靠性不断增强的观察，我们提出了自我校正的方法，该方法逐渐增加模型自我知识的信任度以纠正训练监督。全面的实验表明，我们的方法在存在模拟的语义错位噪声以及应用于实际网络爬取的嘈杂数据集时，均显著提高了不同翻译任务的翻译性能。