LLM2D

摘要

arXiv:2501.19393v2 类别: cross 摘要: 测试时可扩展性是一种新的语言建模方法，通过增加测试时的计算能力来提高性能。最近，OpenAI 的 o1 模型展示了这种能力，但没有公开分享其方法，导致了众多的复制努力。我们寻求实现测试时可扩展性和强大推理性能的最简单方法。首先，我们精心挑选了一个包含1000个问题和推理痕迹的小型数据集 s1K，这些问题和推理痕迹依赖于我们通过消融实验验证的三个标准：难度、多样性和质量。其次，我们开发了预算强制技术，通过强制终止模型的思考过程或通过在模型生成时多次附加“等待”来使其生成过程延长，从而控制测试时的计算量。这可以使模型重新检查其答案，通常修复不正确的推理步骤。在使用 s1K 对 Qwen2.5-32B-Instruct 语言模型进行监督微调并将其与预算强制相结合后，我们的模型 s1-32B 在竞赛数学问题上的表现比 o1-preview 高出最多 27%（MATH 和 AIME24）。此外，通过预算强制扩展 s1-32B 可以在其未进行测试时干预的情况下进一步超越其性能：从 50% 提高到 57%（AIME24）。我们的模型、数据和代码在 https://github.com/simplescaling/s1 开放源代码。