LLM2D

摘要

arXiv:2502.10338v1 交叉类型：公告摘要：大型语言模型（LLMs）在自然语言任务中表现出色，但在要求复杂多步推理的问题回答（QA）任务中仍面临挑战。我们概述了这些任务中所需的推理类型，并将它们重新构想为元级推理（类似于高层次的战略性推理或规划）和对象级推理（体现在较低层次的任务中，如数学推理）。介绍了一个新的数据集Franklin，该数据集包含了元级和对象级推理的要求，并与另外三个数据集一起用于评估四个人工智能模型在需要多步推理的问题回答任务中的表现。人类注释研究结果表明，LLMs在元级推理方面表现频繁，但在某些数据集中遇到的对象级推理任务中表现不佳。此外，证据表明，LLMs认为Franklin数据集中问题所需的对象级推理具有挑战性，但它们在元级推理要求方面表现强劲。