LLM2D

摘要

arXiv:2502.05312v1 交叉类型公告摘要：合成数据生成被认为是一种提高神经语法纠错（GEC）系统质量的方法。然而，当前的方法往往缺乏多样性，或者过于简单，无法生成人类广泛做出的语法错误，尤其是对阿拉伯语这样的低资源语言尤为重要。在本文中，我们将开发错误标记模型和合成数据生成模型，用于为阿拉伯语语法纠错创建大量合成数据集。在错误标记模型中，使用DeBERTav3模型将正确句子归类为多种错误类型。Arabic Error Type Annotation tool (ARETA) 用于指导错误标记模型中的多标签分类任务，每个句子被分类为26个错误标签。合成数据生成模型是一个基于反向翻译的模型，它通过在由ARAT5模型生成的正确句子之前添加错误标签来生成错误句子。在QALB-14和QALB-15测试集上，错误标记模型实现了94.42%的F1分数，这是在干净句子中识别错误标签的最新技术。通过我们对语法错误纠正的语义数据训练，我们在QALB-14测试集上取得了新的最新技术水平，F1-Score为79.36%。我们使用合成数据生成模型生成了30,219,310对合成句子对。