LLM2D

摘要

大型语言模型 (LLM) 彻底改变了自然语言处理，但它们在推理一致性方面存在困难，尤其是在新领域和复杂的逻辑序列中。本研究介绍了“思想证明”框架，该框架增强了 LLM 输出的可靠性和透明度。我们的方法将 LLM 生成的想法与形式逻辑验证相结合，使用自定义解释器将 LLM 输出转换为一阶逻辑结构，以便定理证明器进行审查。我们方法的核心是基于 JSON 的中间领域特定语言，它在设计上平衡了精确的逻辑结构和直观的 انسانی概念。这种混合表示既能进行严格的验证，又能使人们轻松地理解 LLM 的推理过程。主要贡献包括健壮的类型系统，具有排序管理以增强逻辑完整性；规则的显式表示，以清楚区分事实知识和推断知识；以及灵活的架构，允许轻松扩展到各种特定于领域的应用。我们通过在 StrategyQA 和一项新颖的多模态推理任务上的基准测试证明了“思想证明”的有效性，结果表明在开放式场景中的性能有所提高。通过提供可验证和可解释的结果，我们的技术解决了人工智能系统问责制的重要需求，并为高风险领域的人机协同监督奠定了基础。