摘要
arXiv:2502.05253v1 交叉公告类型
摘要:我们提出了一种基于结果的微调框架,该框架可以在不依赖于人类定制的推理样本的情况下增强大型语言模型(LLMs)的预测能力。我们的方法利用模型自对弈生成一组多样的推理轨迹和概率预测,这些预测适用于模型知识截止日期之后能得到实际结果的一组多样性问题。然后,我们通过直接偏好优化(DPO)对模型进行微调,根据这些推理轨迹与实际结果的距离对它们进行排名。在单独的测试集上,我们的方法将Phi-4 14B和DeepSeek-R1 14B的预测准确性提高了7-10%,超过了基模型和带有随机标签的DPO微调控制模型,使其与GPT-4o等更大规模的前沿模型的预测能力相当。