LLM2D

摘要

本论文评估了大型语言模型 (LLMs) 在法学院入学考试 (LSAT) 中的表现，特别是考试的逻辑游戏部分。我专注于这一部分，因为它呈现了一个复杂的逻辑推理任务，因此是评估现代、能力不断提升的 LLMs 如何处理困难的逻辑推理任务的宝贵数据来源。我构建了一个包含 LSAT 逻辑游戏及其相关元数据的数据库，并广泛评估了 LLMs 在链式思维提示设置中的表现。鉴于在这种设置下的表现较弱，我在数据集的一个较小子集上探索了其他提示框架，将反思的思想应用于此任务。这使得 GPT-4 在此数据子集上的准确率大幅提高到 70%，GPT-3.5 的准确率提高到 46%，突出了 LLMs 尽管最初表现较弱，但仍能修正其逻辑错误的能力。最后，我分析了模型表现更好或更差的逻辑游戏类型，以及从人工标注中观察到的逻辑错误类型，提供了关于 LLMs 逻辑推理能力的详细见解。