LLM2D
ASP支架辅助的大语言模型中的自校准预测实证研究:稳健推理的探索
An Empirical Study of Conformal Prediction in LLM with ASP Scaffolds for Robust Reasoning
作者: Navdeep Kaur, Lachlan McPheat, Alessandra Russo, Anthony G Cohn, Pranava Madhyastha
发布日期: 4/14/2025
arXiv ID: oai:arXiv.org:2503.05439v2

摘要

arXiv:2503.05439v2 宣告类型: replace-cross 摘要: 在本文中,我们探讨了将遵从式语言模型 (CLM) 与回答集编程 (ASP) 结合使用以增强标准开放式大型语言模型 (LLM) 在复杂多步推理任务上的性能。通过使用需要空间推理的 StepGame 数据集,我们将 CLM 应用于从 LLM 生成一组 ASP 程序,并提供了输出正确性的统计保证。实验结果表明,CLM 显著优于使用标准采样方法的基线模型,在不同复杂度层次的推理任务中实现了显著的准确度提升。此外,LLM-作为裁判的度量标准增强了 CLM 的性能,尤其是在评估结构上和逻辑上正确的 ASP 输出方面。然而,使用多样化的校准集对 CLM 进行校准并未提高对需要更长推理步骤的任务的泛化能力,表明其在处理更复杂任务方面存在局限性。