LLM2D
面向阿拉伯语语法错误修正的平衡合成数据开发:基于错误标注模型和合成数据生成模型的方法
Towards the Development of Balanced Synthetic Data for Correcting Grammatical Errors in Arabic: An Approach Based on Error Tagging Model and Synthetic Data Generating Model
作者: Ahlam Alrehili, Areej Alhothali
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2502.05312v1

摘要

arXiv:2502.05312v1 交叉类型公告 摘要:合成数据生成被认为是一种提高神经语法纠错(GEC)系统质量的方法。然而,当前的方法往往缺乏多样性,或者过于简单,无法生成人类广泛做出的语法错误,尤其是对阿拉伯语这样的低资源语言尤为重要。在本文中,我们将开发错误标记模型和合成数据生成模型,用于为阿拉伯语语法纠错创建大量合成数据集。在错误标记模型中,使用DeBERTav3模型将正确句子归类为多种错误类型。Arabic Error Type Annotation tool (ARETA) 用于指导错误标记模型中的多标签分类任务,每个句子被分类为26个错误标签。合成数据生成模型是一个基于反向翻译的模型,它通过在由ARAT5模型生成的正确句子之前添加错误标签来生成错误句子。在QALB-14和QALB-15测试集上,错误标记模型实现了94.42%的F1分数,这是在干净句子中识别错误标签的最新技术。通过我们对语法错误纠正的语义数据训练,我们在QALB-14测试集上取得了新的最新技术水平,F1-Score为79.36%。我们使用合成数据生成模型生成了30,219,310对合成句子对。