LLM2D
重访o1-like模型的测试时缩放能力:它们真的具备测试时缩放能力吗?
Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities?
作者: Zhiyuan Zeng, Qinyuan Cheng, Zhangyue Yin, Yunhua Zhou, Xipeng Qiu
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.12215v1

摘要

arXiv:2502.12215v1 类型: 交叉 摘要:随着大型语言模型(LLMs)在推断时的缩放能力的出现,以OpenAI的o1系列为例,推理能力得到了提升,通过在推断过程中扩展计算资源分配。虽然其继任者如QwQ、Deepseek-R1(R1)和LIMO复制了这些进步,但这些模型是否真正具备推断时的缩放能力仍然有待探索。这项研究发现,这些o1类似模型更长的推理链(CoT)并不一致地提高准确性;事实上,对于相同的问题,正确答案通常比错误答案更短。进一步的研究表明,这种现象与模型的自我修订能力密切相关——更长的推理链包含更多的自我修订,这通常会导致性能下降。然后,我们在QwQ、R1和LIMO上比较了串联和并行缩放策略,发现并行缩放在覆盖率和可扩展性方面表现更好。基于这些见解,我们提出了最短多数投票法,这是一种结合并行缩放策略和推理链长度特征的方法,相较于传统的多数投票方法,显著提高了模型的推断时的可扩展性。