LLM2D
大型语言模型能够学习形式逻辑吗?一种基于数据的训练与评估框架
Can Large Language Models Learn Formal Logic? A Data-Driven Training and Evaluation Framework
作者: Yuan Xia, Akanksha Atrey, Fadoua Khmaissia, Kedar S. Namjoshi
发布日期: 4/30/2025
arXiv ID: oai:arXiv.org:2504.20213v1

摘要

arXiv:2504.20213v1 逻辑推理类型:跨领域 摘要:本文研究了大型语言模型(LLM)的逻辑推理能力。为了选择一个概念上简单但技术上复杂的任务,我们选择了构建布尔逻辑证明这一任务。训练好的LLM接受一组假设和一个目标作为输入,并生成一个形式上从假设推导出目标的证明。错误的证明通过自动证明检查器被检测出来。一个关键的训练障碍是现实中证明资料的稀缺性。我们提出了一种高效且随机化的合成有效证明的方法,并介绍了模板转换这一数据增强技术,以增强模型处理复杂逻辑表达式的能力。中央评估问题是LLM是否确实学会了推理。我们提出了一些测试来测量黑箱LLM的推理能力。通过这些测试,实验表明,对于具有简短证明的断言,LLM显示出强大的推理能力,但随着证明复杂性的增加而下降。值得注意的是,模板转换即使对于较小的模型也能提高准确性,这表明其在不同模型规模上的有效性。