LLM2D
思考偏好优化
Thinking Preference Optimization
作者: Wang Yang, Hongye Jin, Jingfeng Yang, Vipin Chaudhary, Xiaotian Han
发布日期: 2/20/2025
arXiv ID: oai:arXiv.org:2502.13173v1

摘要

arXiv:2502.13173v1 交叉领域类型公告 摘要:监督微调(SFT)已成为通过使用大型LLM的长链式推理(CoT)响应来增强相对较小的LLM的长链式推理的有效方法。为了不断改善推理能力,我们可以收集新的高质量长CoT推理SFT数据,或者重复训练现有的SFT数据集。然而,获取新的长CoT SFT数据成本高昂且受限,而重复训练往往会导致性能平台或下降。为了进一步利用SFT数据提升性能,我们提出了思考偏好优化(ThinkPO),这是一种简单而有效的后SFT方法,可在不需新长CoT响应的情况下增强长CoT推理。相反,ThinkPO 利用现成的或易于获取的短CoT推理响应作为被拒绝的答案,以及长CoT响应作为相同问题的选择答案。然后,应用直接偏好优化以鼓励模型偏好更长的推理输出。实验表明,ThinkPO 进一步提高了SFT模型的推理性能,例如将SFT模型的数学推理准确性提高了8.6%,并将推理输出长度提高了25.9%。值得注意的是,ThinkPO 能够不断提升公开精馏SFT模型的性能,例如将官方DeepSeek-R1-Distill-Qwen-7B在MATH500上的性能从87.4%提高到91.2%。