LLM2D

摘要

arXiv:2501.19393v1 交叉类型: cross 摘要: 测试时缩放是一种有前途的新语言模型方法，它通过额外的测试时计算来提高性能。最近，OpenAI 的 o1 模型展示了这种能力，但没有公开分享其方法论，导致了许多复制努力。我们寻求一种最简单的方法来实现测试时缩放和强大的推理性能。首先，我们精心制作了一个包含1,000个问题及其推理记录的小数据集 s1K，这些问题和推理记录依赖于我们通过消融实验验证的三个标准：难度、多样性和质量。其次，我们开发了一种预算强制方法，以控制测试时的计算量，通过强制终止模型的思考过程或在模型尝试结束生成时多次附加“等待”指令来延长生成长度。这可以使模型重新检查其答案，通常能修正错误的推理步骤。在对 s1K 数据集进行监督微调 Qwen2.5-32B-Instruct 语言模型，并结合预算强制方法后，我们的模型 s1 在竞赛数学问题上比 o1-preview 高出了最多 27%（MATH 和 AIME24）。此外，通过预算强制放大 s1 的规模，无需额外的测试时干预，其性能可进一步提升：AIME24 上从 50% 提升到 57%。我们的模型、数据和代码可以在 https://github.com/simplescaling/s1 免费获取。