摘要
大型语言模型 (LLMs) 在众多自然语言处理任务中表现出强大的数学推理和计算能力,能够解决从基本算术到高级竞赛级别的各种问题。然而,模型中经常出现细微的错误,例如计算错误或错误替换,限制了模型的全部数学潜力。现有的提高数学能力的研究通常涉及从更强大的 LLMs 中提取推理技能或将偏好学习应用于逐步响应对。虽然这些方法利用不同粒度的样本减轻推理错误,但它们忽视了经常出现的细微错误。一个主要原因是采样的偏好对包含与错误无关的差异,这可能会分散模型对细微错误的关注。在这项工作中,我们提出了一种新的偏好学习框架,称为错误注入自编辑 (RISE),它将预定义的细微错误注入到正确解决方案的部分标记中,以构建用于错误缓解的困难对。具体来说,RISE 使用模型本身来编辑解决方案中的少量标记,注入设计的细微错误。然后,将由自编辑解决方案及其对应的正确解决方案组成的对,以及通过采样获得的正确和不正确解决方案的对一起用于细微错误感知 DPO 训练。与其他偏好学习方法相比,RISE 进一步细化了训练目标,专注于预定义的错误及其标记,而无需细粒度采样或偏好标注。大量的实验验证了 RISE 的有效性,在 Qwen2-7B-Instruct 上进行偏好学习,在 GSM8K 上取得了 3.0% 的显著改进,在 MATH 上取得了 7.9% 的显著改进。