LLM2D

摘要

arXiv:2503.23779v1 交叉类型：摘要：在本研究中，我们更详细地探讨了Winograd schema挑战如何用于评估LLMs的常识推理能力。具体来说，我们在流行的大规模WinoGrande基准测试上评估了不同规模的生成模型。我们发布了WinoWhat这一新的语料库，在该语料库中，WinoGrande验证集的每个实例都被重述。此外，我们在挑战中对五个常识知识类别进行了性能评估，提供更细致的见解，了解对于LLMs而言哪些类型的知识更具挑战性。令人惊讶的是，所有模型在WinoWhat上表现明显更差，这表明在WinoGrande上的LLMs推理能力可能被高估了。为了验证这种差异是否是基准记忆效应的结果，我们将基准实例与LLMs训练数据进行匹配，并创建了两个测试套件。我们观察到，记忆效应在WinoGrande上的模型性能方面的影响非常小。