LLM2D

摘要

arXiv:2505.01903v1 Announce Type: cross 摘要：大型语言模型（LLMs）越来越多地用于生成多项选择题（MCQs）的诱错选项，尤其是在数学教育领域。然而，现有的方法在确保生成的诱错选项与常见学生错误一致方面存在限制。我们提出了一种称为LookAlike的方法，通过偏好优化来提高错误诱错选项的一致性。我们的两大创新是：(a) 从模型不一致性中挖掘合成偏好配对，并且(b) 交替进行监督微调（SFT）和直接偏好优化（DPO）以稳定训练。与依赖于启发式方法或手动标注偏好数据的先前工作不同，LookAlike使用自身生成的不一致性作为不受欢迎的样本，从而实现规模化的稳定训练。在包含1,400多个数学MCQ的真实数据集上进行评估，LookAlike在LLM作为评判者的评估中，诱错选项生成的准确率达到了51.6%，错误生成的准确率达到了57.2%，超过了现有的先进方法（45.6% / 47.7%）。这些改进突显了基于偏好正则化和不一致性挖掘在大规模生成一致的数学MCQ诱错选项方面的有效性。