摘要
arXiv:2502.07191v1 宣告类型: 新
摘要: 随着大型语言模型(LLMs)的发展,解决复杂推理任务越来越受到关注。推理时的计算方法(如 Best-of-N、束搜索等)尤其有价值,因为它们可以在不修改模型参数或不需要额外训练的情况下提高推理性能。然而,这些技术伴随着实现上的挑战,而且由于其计算复杂性和在不同任务上的有效性差异,大多数现有方法仍然停留在概念验证阶段,实际应用较少。在本文中,我们研究并比较了各种不同复杂度推理任务下的推理时计算策略。由于大多数当前方法依赖于提出者-验证者管道,首先生成候选解决方案(如推理解决方案),然后基于奖励信号(如RLHF奖励、过程奖励)选择最佳方案,我们的研究重点在于优化候选解决方案生成(如指导提示、温度和top-p等超参数)以及奖励机制(如自我评估、奖励类型)。通过多种模型(如Llama、Qwen和Mistral家族等)的大量实验(超过20,000个A100-80G GPU小时,超过1,000个实验),我们的消除分析表明,以前未被重视的策略可以显著提升性能(如调整温度可以将推理任务性能提高多达5%)。此外,我们通过系统地评估六种代表性方法在八个推理任务上的表现,建立了一个标准化的推理时计算基准。这些发现为未来的研究提供了更坚实的基础。代码可在https://github.com/usail-hkust/benchmark_inference_time_computation_LL 获取。