LLM2D

摘要

arXiv:2504.14047v1 宣告类型: 新摘要: 对于如何通过推理时间计算（ITC，例如重复采样、优化等）来提高大型语言模型（LLM）能力的研究引起了极大的兴趣。同时，最近在推理模型方面的突破，如Deepseek-R1，为利用强化学习提高LLM推理技能提供了机会。对推理和非推理模型之间如何交互的深入理解可以为如何进一步推进LLM前沿提供重要指导。本文对推理和非推理模型在具有挑战性的推理任务中的推理时间缩放方法进行了全面分析。具体而言，我们的研究集中于无需奖励模型即可实现广泛适用性的验证者免费推理时间缩放方法。我们构建了质量和效率的帕累托前沿。我们发现，即便非推理模型配备了极高的推理预算，它们仍远远落后于推理模型。对于推理模型，多数投票证明是一种稳健的推理策略，通常与最佳的N次采样和顺序修订等更复杂的ITC方法具有竞争力甚至更优，而额外的推理计算只带来微小的进步。我们还深入分析了关键响应特征（长度和语言标记）与响应质量之间的关系，从而可以改进现有的ITC方法。我们发现，正确响应通常较短，较少有犹豫和思考标记（但更多讨论性标记），而不正确的响应则相反。