LLM2D

摘要

arXiv:2505.01482v1 公告类型: 新增摘要：大型语言模型（LLMs）在自然语言理解、推理和问题解决方面展示了非凡的能力，涵盖多个领域。然而，它们在科学、医学和法律等应用中进行复杂多步骤推理的能力仍然是一个活跃的研究领域。本文研究了当代LLMs的推理能力，分析了它们的优势、局限性和改进的潜力。该研究使用了Graduate-Level GoogleProof Q&A（GPQA）数据集上的提示工程技术来评估GPT-4o的科学推理能力。测试了五种流行的提示工程技术以及两种定制提示：基线直接答案（零样本），思维链（CoT），零样本CoT，自问，自一致性，分解，多路径提示。我们的研究结果表明，尽管LLMs表现出一定的推理能力，但它们往往依赖于模式识别而非真正的逻辑推理，导致复杂问题解决中的不一致性。结果显示，自一致性在准确率方面（52.99%）优于其他提示工程技术，其次是直接答案（52.23%）。零样本CoT（50%）优于多路径（48.44%）、分解（47.77%）、自问（46.88%）和CoT（43.75%）。自一致性在解释答案方面表现第二差。简单的提示工程技术如直接答案、CoT和零样本CoT在科学推理方面表现最佳。我们提出了一个研究议程，旨在通过整合结构化推理框架、混合AI方法和人机交互方法来弥补这些差距。通过对LLMs推理机制的批判性评估，本文为未来的人工通用智能的讨论和更稳健、可信赖的AI系统的发展做出了贡献。