LLM2D
Winograd挑战句并行 corpora 及常识分类.Parallel Corpus of Paraphrased Winograd Grande Sentences with Common Sense Categorization
WinoWhat: A Parallel Corpus of Paraphrased WinoGrande Sentences with Common Sense Categorization
作者: Ine Gevers, Victor De Marez, Luna De Bruyne, Walter Daelemans
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.23779v1

摘要

arXiv:2503.23779v1 交叉类型: 摘要:在本研究中,我们更详细地探讨了Winograd schema挑战如何用于评估LLMs的常识推理能力。具体来说,我们在流行的大规模WinoGrande基准测试上评估了不同规模的生成模型。我们发布了WinoWhat这一新的语料库,在该语料库中,WinoGrande验证集的每个实例都被重述。此外,我们在挑战中对五个常识知识类别进行了性能评估,提供更细致的见解,了解对于LLMs而言哪些类型的知识更具挑战性。令人惊讶的是,所有模型在WinoWhat上表现明显更差,这表明在WinoGrande上的LLMs推理能力可能被高估了。为了验证这种差异是否是基准记忆效应的结果,我们将基准实例与LLMs训练数据进行匹配,并创建了两个测试套件。我们观察到,记忆效应在WinoGrande上的模型性能方面的影响非常小。