LLM2D
简单的测试时扩展
s1: Simple test-time scaling
作者: Niklas Muennighoff, Zitong Yang, Weijia Shi, Xiang Lisa Li, Li Fei-Fei, Hannaneh Hajishirzi, Luke Zettlemoyer, Percy Liang, Emmanuel Cand\`es, Tatsunori Hashimoto
发布日期: 2/3/2025
arXiv ID: oai:arXiv.org:2501.19393v1

摘要

arXiv:2501.19393v1 交叉类型: cross 摘要: 测试时缩放是一种有前途的新语言模型方法,它通过额外的测试时计算来提高性能。最近,OpenAI 的 o1 模型展示了这种能力,但没有公开分享其方法论,导致了许多复制努力。我们寻求一种最简单的方法来实现测试时缩放和强大的推理性能。首先,我们精心制作了一个包含1,000个问题及其推理记录的小数据集 s1K,这些问题和推理记录依赖于我们通过消融实验验证的三个标准:难度、多样性和质量。其次,我们开发了一种预算强制方法,以控制测试时的计算量,通过强制终止模型的思考过程或在模型尝试结束生成时多次附加“等待”指令来延长生成长度。这可以使模型重新检查其答案,通常能修正错误的推理步骤。在对 s1K 数据集进行监督微调 Qwen2.5-32B-Instruct 语言模型,并结合预算强制方法后,我们的模型 s1 在竞赛数学问题上比 o1-preview 高出了最多 27%(MATH 和 AIME24)。此外,通过预算强制放大 s1 的规模,无需额外的测试时干预,其性能可进一步提升:AIME24 上从 50% 提升到 57%。我们的模型、数据和代码可以在 https://github.com/simplescaling/s1 免费获取。