LLM2D
使用对比集评估大型语言模型:一种实验方法
Evaluating Large Language Models Using Contrast Sets: An Experimental Approach
作者: Manish Sanwal
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2404.01569v2

摘要

在自然语言推理(NLI)领域,特别是在涉及多个输入文本分类的任务中,交叉熵损失度量被广泛用作错误测量的标准。然而,这种度量在有效评估模型理解语言蕴涵的能力方面存在不足。在本研究中,我们提出了一种为斯坦福自然语言推理(SNLI)数据集生成对比集的创新技术。我们的策略涉及用同义词自动替换动词、副词和形容词,以保留句子的原始含义。该方法旨在评估模型的性能是基于真正的语言理解还是仅仅基于模式识别。我们使用 ELECTRA-small 模型进行了分析。该模型在传统的 SNLI 数据集上取得了 89.9% 的准确率,但在我们的对比集上准确率下降至 72.5%,下降了 17%。这一结果促使我们对模型的学习行为进行了详细的检查。在此之后,我们通过使用专门为 SNLI 设计的对比增强训练数据集对模型进行微调,提高了模型的鲁棒性,使其在对比集上的准确率提升至 85.5%。我们的研究结果强调了将不同的语言表达纳入 NLI 任务数据集的重要性。我们希望我们的研究能够鼓励创建更具包容性的数据集,从而有助于开发更复杂、更有效的 NLI 模型。