LLM2D
通过强化学习的教学使大语言模型实现步骤级自动数学纠正
Teaching LLMs for Step-Level Automatic Math Correction via Reinforcement Learning
作者: Junsong Li, Jie Zhou, Yutao Yang, Bihao Zhan, Qianjun Pan, Yuyang Ding, Qin Chen, Jiang Bo, Xin Lin, Liang He
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2503.18432v1

摘要

arXiv:2503.18432v1 类型:交叉研究 摘要:自动数学纠错旨在通过人工智能技术检查学生解决数学问题的答案。现有的大多数研究重点关注在问题层面判断最终答案,而忽视了在数学问题解决过程中每个步骤的详细反馈,这需要语义理解和推理的能力。在本文中,我们提出了一种基于强化学习(RL)的方法,以增强大型语言模型(LLM)的步骤级别自动数学纠错能力,该方法命名为StepAMC。特别地,我们将步骤级别的自动数学纠错转换为文本分类任务中的RL问题,以提升LLM的推理能力。然后,我们设计了一个空间约束的策略网络来提高RL的稳定性。接着,我们引入了一个细粒度的奖励网络,将二元的人类反馈转换为连续值。我们在两个基准数据集上进行了广泛的实验,结果表明,我们的模型优于强基线的十一个版本。