摘要
我们介绍了一种名为LogicAsker的新方法,用于评估和增强大型语言模型(LLM),例如ChatGPT和GPT-4的逻辑推理能力。尽管LLM在写作辅助、代码生成和机器翻译等任务中表现出色,但评估其推理能力一直是一项挑战。传统的评估方法往往优先考虑下游任务的准确性,而不是直接评估推理过程。LogicAsker通过采用一组基于命题逻辑和谓词逻辑的原子推理技能来系统地检查和改进LLM的推理能力,从而解决了这一差距。我们的方法揭示了LLM学习逻辑规则方面的显著差距,不同模型的推理失败率从29%到90%不等。此外,我们利用这些发现来构建有针对性的演示示例和微调数据,显著提高了GPT-4o等模型的逻辑推理能力,最高可达5%。据我们所知,这是首次利用测试用例结果有效改进LLM形式推理能力的尝试。我们将我们的代码、数据和结果公开发布(https://github.com/yxwan123/LogicAsker),以促进进一步的研究和结果的复制。