LLM2D

摘要

arXiv:2502.07191v3 宣告类型: 替换摘要：随着大型语言模型（LLMs）的发展，解决复杂推理任务得到了越来越多的关注。推理时计算方法（例如 Best-of-N、束搜索等）特别有价值，因为它们能够在不修改模型参数或需要额外训练的情况下提升推理性能。然而，这些技术也伴随着实施挑战，并且由于其计算复杂性和在不同任务上的效果差异，大多数现有的方法仍停留在概念验证阶段，实际应用有限。在本文中，我们调查并 benchmark 了多样化的推理时计算策略，覆盖了不同复杂度的推理任务。由于大多数当前方法依赖于提案-验证者管道，首先生成候选解决方案（例如，推理解决方案），然后基于奖励信号（例如，RLHF奖励、过程奖励）选择最优解决方案，我们的研究重点在于优化候选解决方案生成（例如，指令提示、温度和 top-p 等超参数）和奖励机制（例如，自我评估、奖励类型）。通过在各种规模的模型（例如，Llama、Qwen 和 Mistral 家族）上进行大量实验（超过 20,000 个 A100-80G GPU 小时，超过 1,000 次实验），我们的消融研究表明，之前未被重视的策略可以显著提升性能（例如，调整温度可以提高推理任务性能高达 5%）。此外，我们通过系统评估六种代表性方法在八项推理任务上的表现，建立了推理时计算的标准化基准。这些发现为未来的研究提供了更坚实的基础。代码可在 https://github.com/usail-hkust/benchmark_inference_time_computation_LL 获取。