LLM2D

摘要

arXiv:2502.13173v1 交叉领域类型公告摘要：监督微调（SFT）已成为通过使用大型LLM的长链式推理（CoT）响应来增强相对较小的LLM的长链式推理的有效方法。为了不断改善推理能力，我们可以收集新的高质量长CoT推理SFT数据，或者重复训练现有的SFT数据集。然而，获取新的长CoT SFT数据成本高昂且受限，而重复训练往往会导致性能平台或下降。为了进一步利用SFT数据提升性能，我们提出了思考偏好优化（ThinkPO），这是一种简单而有效的后SFT方法，可在不需新长CoT响应的情况下增强长CoT推理。相反，ThinkPO 利用现成的或易于获取的短CoT推理响应作为被拒绝的答案，以及长CoT响应作为相同问题的选择答案。然后，应用直接偏好优化以鼓励模型偏好更长的推理输出。实验表明，ThinkPO 进一步提高了SFT模型的推理性能，例如将SFT模型的数学推理准确性提高了8.6%，并将推理输出长度提高了25.9%。值得注意的是，ThinkPO 能够不断提升公开精馏SFT模型的性能，例如将官方DeepSeek-R1-Distill-Qwen-7B在MATH500上的性能从87.4%提高到91.2%。