LLM2D
迷失在逻辑中:对大型语言模型在LSAT逻辑游戏中的推理能力的评估
Lost in the Logic: An Evaluation of Large Language Models' Reasoning Capabilities on LSAT Logic Games
作者: Saumya Malik
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2409.19012v1

摘要

本论文评估了大型语言模型 (LLMs) 在法学院入学考试 (LSAT) 中的表现,特别是考试的逻辑游戏部分。我专注于这一部分,因为它呈现了一个复杂的逻辑推理任务,因此是评估现代、能力不断提升的 LLMs 如何处理困难的逻辑推理任务的宝贵数据来源。我构建了一个包含 LSAT 逻辑游戏及其相关元数据的数据库,并广泛评估了 LLMs 在链式思维提示设置中的表现。鉴于在这种设置下的表现较弱,我在数据集的一个较小子集上探索了其他提示框架,将反思的思想应用于此任务。这使得 GPT-4 在此数据子集上的准确率大幅提高到 70%,GPT-3.5 的准确率提高到 46%,突出了 LLMs 尽管最初表现较弱,但仍能修正其逻辑错误的能力。最后,我分析了模型表现更好或更差的逻辑游戏类型,以及从人工标注中观察到的逻辑错误类型,提供了关于 LLMs 逻辑推理能力的详细见解。