摘要
arXiv:2502.12275v2 通告类型:替换
摘要:本文介绍了ExKLoP,一个新颖的框架,旨在评估大型语言模型(LLMs)如何有效地将专家知识整合到逻辑推理系统中。这种能力在工程领域尤为重要,其中专家知识,如制造商推荐的操作范围,可以直接嵌入到自动监控系统中。通过镜像专家验证步骤,如范围检查和约束验证等任务有助于确保系统的安全性和可靠性。我们的方法系统地评估了LLM生成的逻辑规则,评估这些关键验证任务中的句法流畅性和逻辑正确性。我们还通过基于代码执行结果的迭代反馈环探索了模型的自我纠正能力。ExKLoP提供了一个可扩展的数据集,包含130个工程前提条件,950个提示和相应的验证点。它允许进行全面基准测试,同时对任务复杂性和实验可扩展性进行控制。我们利用合成数据创建方法对包括Llama3、Gemma3、Codestral和QwenCoder在内的多种LLM进行了广泛的实证评估。结果表明,大多数模型生成了几乎完美的句法正确代码,并且在将专家知识转换为正确代码方面表现出很强的能力。同时,尽管大多数LLM产生近乎完美的句法输出,但在正确实现逻辑规则方面的能力和自我改进的能力各不相同。总的来说,ExKLoP作为一个 robust 的评估平台,简化了选择适合自我纠正系统的有效模型的过程,并明确界定了遇到的错误类型。