LLM2D

摘要

本文提出了一种改进的基于大型语言模型 (LLM) 的语法错误检测 (GED) 模型，语法错误检测是一个对许多应用来说都极具挑战性和同样重要的难题。传统的 GED 方法涉及手工设计的特征，但最近，神经网络 (NN) 自动化了这些特征的发现，从而提高了 GED 的性能。传统的基于规则的系统具有 0.50-0.60 的 F1 分数，早期的机器学习模型（包括决策树和简单的神经网络）的 F1 分数为 0.65-0.75。之前的深度学习模型（例如，Bi-LSTM）报告的 F1 分数在 0.80 到 0.90 之间。在我们的研究中，我们使用经过我们严格清洗的 Lang8 数据集微调了各种 Transformer 模型。在我们的实验中，BERT-base-uncased 模型表现令人印象深刻，在训练数据上的 F1 分数为 0.91，准确率为 98.49%，在测试数据上的准确率为 90.53%，这也突显了数据清洗的重要性。使用 BERT-large-uncased 或 RoBERTa-large 等更大的模型并没有在这个任务中带来任何明显的性能提升或优势，这强调了更大的模型并不总是更好。我们的结果清楚地表明，严格的数据清洗和简单的基于 Transformer 的模型可以在多大程度上显著提高 GED 的质量。