LLM2D

摘要

arXiv:2502.12215v1 类型: 交叉摘要：随着大型语言模型（LLMs）在推断时的缩放能力的出现，以OpenAI的o1系列为例，推理能力得到了提升，通过在推断过程中扩展计算资源分配。虽然其继任者如QwQ、Deepseek-R1（R1）和LIMO复制了这些进步，但这些模型是否真正具备推断时的缩放能力仍然有待探索。这项研究发现，这些o1类似模型更长的推理链（CoT）并不一致地提高准确性；事实上，对于相同的问题，正确答案通常比错误答案更短。进一步的研究表明，这种现象与模型的自我修订能力密切相关——更长的推理链包含更多的自我修订，这通常会导致性能下降。然后，我们在QwQ、R1和LIMO上比较了串联和并行缩放策略，发现并行缩放在覆盖率和可扩展性方面表现更好。基于这些见解，我们提出了最短多数投票法，这是一种结合并行缩放策略和推理链长度特征的方法，相较于传统的多数投票方法，显著提高了模型的推断时的可扩展性。