LLM2D

摘要

arXiv:2503.05439v2 宣告类型: replace-cross 摘要: 在本文中，我们探讨了将遵从式语言模型 (CLM) 与回答集编程 (ASP) 结合使用以增强标准开放式大型语言模型 (LLM) 在复杂多步推理任务上的性能。通过使用需要空间推理的 StepGame 数据集，我们将 CLM 应用于从 LLM 生成一组 ASP 程序，并提供了输出正确性的统计保证。实验结果表明，CLM 显著优于使用标准采样方法的基线模型，在不同复杂度层次的推理任务中实现了显著的准确度提升。此外，LLM-作为裁判的度量标准增强了 CLM 的性能，尤其是在评估结构上和逻辑上正确的 ASP 输出方面。然而，使用多样化的校准集对 CLM 进行校准并未提高对需要更长推理步骤的任务的泛化能力，表明其在处理更复杂任务方面存在局限性。