LLM2D

摘要

arXiv:2504.20213v1 逻辑推理类型：跨领域摘要：本文研究了大型语言模型（LLM）的逻辑推理能力。为了选择一个概念上简单但技术上复杂的任务，我们选择了构建布尔逻辑证明这一任务。训练好的LLM接受一组假设和一个目标作为输入，并生成一个形式上从假设推导出目标的证明。错误的证明通过自动证明检查器被检测出来。一个关键的训练障碍是现实中证明资料的稀缺性。我们提出了一种高效且随机化的合成有效证明的方法，并介绍了模板转换这一数据增强技术，以增强模型处理复杂逻辑表达式的能力。中央评估问题是LLM是否确实学会了推理。我们提出了一些测试来测量黑箱LLM的推理能力。通过这些测试，实验表明，对于具有简短证明的断言，LLM显示出强大的推理能力，但随着证明复杂性的增加而下降。值得注意的是，模板转换即使对于较小的模型也能提高准确性，这表明其在不同模型规模上的有效性。