LLM2D

基于心理测量学的评估：大型语言模型在定理证明中的应用

Psychometric-Based Evaluation for Theorem Proving with Large Language Models

作者: Jianyu Zhang, Yongwang Zhao, Long Zhang, Jilin Hu, Xiaokun Luan, Zhiwei Xu, Feng Yang

发布日期: 2/4/2025

arXiv ID: oai:arXiv.org:2502.00855v1

摘要

arXiv:2502.00855v1 宣告类型: 新摘要: 正式定理证明的大语言模型（LLMs）已成为一个重要的研究焦点。目前，这些LLMs的证明能力主要通过在miniF2F等数据集上的证明通过率进行评估。然而，这种方法忽略了定理的不同重要性，导致未能突出LLMs之间的实际性能差异，且评估成本较高。本研究提出了一种基于心理测量的定理证明评估方法，该方法包含两个主要组成部分：数据集注释和自适应评估。首先，我们提出了一种度量计算方法，通过注释数据集中的难度和区分度度量来标注数据集。具体来说，我们为miniF2F数据集中的每个定理进行了注释，并根据LLMs的表现将其分为不同难度级别，从而得到了增强的数据集：miniF2F-Graded。实验结果显示，miniF2F-Graded中的难度分级更好地反映了LLMs感知到的定理难度。其次，我们设计了一种自适应评估方法，根据标注的度量和LLMs的实际表现动态选择最合适的定理进行测试。我们将该方法应用于10个LLMs的评估。结果显示，我们的方法细腻地突出了LLMs之间的性能差异，并通过仅使用数据集中的23%的定理减少了评估成本。

查看原文下载 PDF