摘要
arXiv:2503.18432v1 类型:交叉研究
摘要:自动数学纠错旨在通过人工智能技术检查学生解决数学问题的答案。现有的大多数研究重点关注在问题层面判断最终答案,而忽视了在数学问题解决过程中每个步骤的详细反馈,这需要语义理解和推理的能力。在本文中,我们提出了一种基于强化学习(RL)的方法,以增强大型语言模型(LLM)的步骤级别自动数学纠错能力,该方法命名为StepAMC。特别地,我们将步骤级别的自动数学纠错转换为文本分类任务中的RL问题,以提升LLM的推理能力。然后,我们设计了一个空间约束的策略网络来提高RL的稳定性。接着,我们引入了一个细粒度的奖励网络,将二元的人类反馈转换为连续值。我们在两个基准数据集上进行了广泛的实验,结果表明,我们的模型优于强基线的十一个版本。