摘要
arXiv:2502.07191v4 宣布类型: 替换
摘要:随着大规模语言模型(LLMs)的发展,解决复杂的推理任务越来越受到关注。推理时的计算方法(例如,Best-of-N、束搜索等)尤其有价值,因为它们可以在不需要修改模型参数或额外训练的情况下增强推理性能。然而,这些技术带来了实现上的挑战,并且由于其计算复杂性和在不同任务上的有效性差异,大多数现有方法仍仅停留在概念验证阶段,实用性有限。在这篇论文中,我们跨不同复杂度的推理任务研究和基准测试了多种推理时的计算策略。由于大多数现有方法依赖于提案-验证者流水线,首先生成候选解决方案(例如,推理解决方案),然后根据奖励信号(例如,RLHF奖励、过程奖励)选择最佳的解决方案,我们的研究重点在于优化候选解决方案生成(例如,指示提示、温度和top-p等超参数)和奖励机制(例如,自我评估、奖励类型)。通过在各种模型(例如,Llama、Qwen和Mistral家族)上进行的大量实验(超过20,000个A100-80G GPU小时,超过1,000次实验),我们的消融研究揭示了一些之前未被忽视的策略可以显著提高性能(例如,调节温度可将推理任务性能提升多达5%)。此外,我们通过系统地评估六种代表性方法在八种推理任务上的表现,建立了推理时计算的标准基准。这些发现为未来的研究提供了更强的基础。代码可在 https://github.com/usail-hkust/benchmark_inference_time_computation_LLM 获得。