LLM2D
评估大规模语言模型在问题回答中的元级和对象级推理能力
Evaluating the Meta- and Object-Level Reasoning of Large Language Models for Question Answering
作者: Nick Ferguson, Liane Guillou, Alan Bundy, Kwabena Nuamah
发布日期: 2/17/2025
arXiv ID: oai:arXiv.org:2502.10338v1

摘要

arXiv:2502.10338v1 交叉类型:公告 摘要:大型语言模型(LLMs)在自然语言任务中表现出色,但在要求复杂多步推理的问题回答(QA)任务中仍面临挑战。我们概述了这些任务中所需的推理类型,并将它们重新构想为元级推理(类似于高层次的战略性推理或规划)和对象级推理(体现在较低层次的任务中,如数学推理)。介绍了一个新的数据集Franklin,该数据集包含了元级和对象级推理的要求,并与另外三个数据集一起用于评估四个人工智能模型在需要多步推理的问题回答任务中的表现。人类注释研究结果表明,LLMs在元级推理方面表现频繁,但在某些数据集中遇到的对象级推理任务中表现不佳。此外,证据表明,LLMs认为Franklin数据集中问题所需的对象级推理具有挑战性,但它们在元级推理要求方面表现强劲。