LLM2D
窥探词元偏见:大型语言模型尚未成为真正的推理者
A Peek into Token Bias: Large Language Models Are Not Yet Genuine Reasoners
作者: Bowen Jiang, Yangxinyu Xie, Zhuoqun Hao, Xiaomeng Wang, Tanwi Mallick, Weijie J. Su, Camillo J. Taylor, Dan Roth
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2406.11050v2

摘要

本研究提出了一个假设检验框架,用于评估大型语言模型 (LLM) 是否拥有真正的推理能力,还是主要依赖于词语偏见。我们超越了对 LLM 准确性的评估;相反,我们旨在调查他们在解决逻辑推理任务中的词语偏见。具体而言,我们开发了精心控制的合成数据集,其中包含合取谬误和三段论问题。我们的框架概述了一系列假设,其中词语偏见很容易识别,所有零假设都假设 LLM 具有真正的推理能力。本研究的结果表明,大多数 LLM 仍然难以进行逻辑推理。虽然它们在经典问题上可能表现良好,但它们的成功很大程度上取决于识别具有强烈词语偏见的表层模式,从而引发了对其实际推理和泛化能力的担忧。代码和数据已在 https://github.com/bowen-upenn/llm_token_bias 上开源。