LLM2D

摘要

本研究提出了一个假设检验框架，用于评估大型语言模型 (LLM) 是否拥有真正的推理能力，还是主要依赖于词语偏见。我们超越了对 LLM 准确性的评估；相反，我们旨在调查他们在解决逻辑推理任务中的词语偏见。具体而言，我们开发了精心控制的合成数据集，其中包含合取谬误和三段论问题。我们的框架概述了一系列假设，其中词语偏见很容易识别，所有零假设都假设 LLM 具有真正的推理能力。本研究的结果表明，大多数 LLM 仍然难以进行逻辑推理。虽然它们在经典问题上可能表现良好，但它们的成功很大程度上取决于识别具有强烈词语偏见的表层模式，从而引发了对其实际推理和泛化能力的担忧。代码和数据已在 https://github.com/bowen-upenn/llm_token_bias 上开源。