摘要
arXiv:2502.12275v1 公告类型: 新
摘要:本文介绍了一种名为ExKLoP的新框架,该框架旨在评估大型语言模型(LLMs)在逻辑推理系统中整合专家知识的能力。这种能力在工程领域尤为重要,因为在工程中,如制造商推荐的操作范围这样的专家知识可以直接嵌入到自动监控系统中。通过模拟专家验证步骤,诸如范围检查和约束验证等任务有助于确保系统的安全性和可靠性。我们的方法系统地评估了LLM生成的逻辑规则,评估了这些关键验证任务中的语法流畅性和逻辑正确性。我们还通过基于代码执行结果的迭代反馈回路探索了模型的自我纠正能力。ExKLoP提供了一个可扩展的数据集,包含130个工程前提,950个提示和相应的验证点。它允许对基准测试进行全面评估,同时控制任务复杂度和实验的可扩展性。我们利用合成数据创建方法对Llama3、Gemma、Mixtral、Mistral和Qwen等多种LLM进行了广泛的实证评估。结果显示,尽管模型生成了几乎完美的语法正确代码,但在将专家知识翻译成逻辑上却经常出现错误。此外,迭代自我纠正仅带来了微小的改进(最多3%)。总体而言,ExKLoP提供了一个强大的评估平台,可以简化选择有效模型以进行自我纠正系统的过程,同时清晰地界定了遇到的错误类型。完整的实现及其所有相关数据可在GitHub上获得。