LLM2D

摘要

我们提出了 LogicAsker，这是一种用于评估和增强大型语言模型（LLM）如 ChatGPT 和 GPT-4 逻辑推理能力的新方法。尽管 LLM 在写作辅助、代码生成和机器翻译等任务中表现出色，但评估其推理能力一直具有挑战性。传统的评估通常优先考虑下游任务的准确性，而不是直接评估推理过程。LogicAsker 通过使用一组基于命题逻辑和谓词逻辑的原子推理技能来解决这一差距，以系统地检验和改进 LLM 的推理能力。我们的方法揭示了 LLM 在学习逻辑规则方面的重大差距，识别出的推理失败率在不同模型之间从 29% 到 90% 不等。此外，我们利用这些发现来构建目标演示示例和微调数据，从而显着提高了 GPT-4o 等模型的逻辑推理能力，最高可达 5%。据我们所知，这是第一个利用测试用例结果来有效地改进 LLM 正式推理能力的尝试。我们公开发布了我们的代码、数据和结果（https://github.com/yxwan123/LogicAsker），以便进一步研究和复制我们的发现。