LLM2D
简单测试时缩放
s1: Simple test-time scaling
作者: Niklas Muennighoff, Zitong Yang, Weijia Shi, Xiang Lisa Li, Li Fei-Fei, Hannaneh Hajishirzi, Luke Zettlemoyer, Percy Liang, Emmanuel Cand\`es, Tatsunori Hashimoto
发布日期: 2/3/2025
arXiv ID: oai:arXiv.org:2501.19393v2

摘要

arXiv:2501.19393v2 类别: cross 摘要: 测试时可扩展性是一种新的语言建模方法,通过增加测试时的计算能力来提高性能。最近,OpenAI 的 o1 模型展示了这种能力,但没有公开分享其方法,导致了众多的复制努力。我们寻求实现测试时可扩展性和强大推理性能的最简单方法。首先,我们精心挑选了一个包含1000个问题和推理痕迹的小型数据集 s1K,这些问题和推理痕迹依赖于我们通过消融实验验证的三个标准:难度、多样性和质量。其次,我们开发了预算强制技术,通过强制终止模型的思考过程或通过在模型生成时多次附加“等待”来使其生成过程延长,从而控制测试时的计算量。这可以使模型重新检查其答案,通常修复不正确的推理步骤。在使用 s1K 对 Qwen2.5-32B-Instruct 语言模型进行监督微调并将其与预算强制相结合后,我们的模型 s1-32B 在竞赛数学问题上的表现比 o1-preview 高出最多 27%(MATH 和 AIME24)。此外,通过预算强制扩展 s1-32B 可以在其未进行测试时干预的情况下进一步超越其性能:从 50% 提高到 57%(AIME24)。我们的模型、数据和代码在 https://github.com/simplescaling/s1 开放源代码。