LLM2D

摘要

arXiv:2503.18432v1 类型：交叉研究摘要：自动数学纠错旨在通过人工智能技术检查学生解决数学问题的答案。现有的大多数研究重点关注在问题层面判断最终答案，而忽视了在数学问题解决过程中每个步骤的详细反馈，这需要语义理解和推理的能力。在本文中，我们提出了一种基于强化学习（RL）的方法，以增强大型语言模型（LLM）的步骤级别自动数学纠错能力，该方法命名为StepAMC。特别地，我们将步骤级别的自动数学纠错转换为文本分类任务中的RL问题，以提升LLM的推理能力。然后，我们设计了一个空间约束的策略网络来提高RL的稳定性。接着，我们引入了一个细粒度的奖励网络，将二元的人类反馈转换为连续值。我们在两个基准数据集上进行了广泛的实验，结果表明，我们的模型优于强基线的十一个版本。