LLM2D

摘要

arXiv:2502.07191v2 宣布类型: 新摘要: 随着大规模语言模型（LLMs）的发展，解决复杂推理任务的注意力逐渐增加。推理时的计算方法（例如 Best-of-N、束搜索等）尤其宝贵，因为这些方法可以在不修改模型参数或需要额外训练的情况下增强推理性能。然而，这些技术在实现上存在挑战，而且由于计算复杂性和在不同任务上的不同有效性，大多数现有的方法仍然处于概念验证阶段，实际应用有限。在本文中，我们研究并基准测试了多种不同复杂度推理任务的推理时计算策略。由于大多数当前方法依赖于提案-验证流水线，即首先生成候选解决方案（例如推理解决方案），然后根据奖励信号（例如 RLHF 奖励、过程奖励）选择最佳解决方案，我们的研究重点在于优化候选解决方案生成（例如指令提示、温度和 top-p 等超参数）以及奖励机制（例如自我评估、奖励类型）。通过在各种类型模型（例如 Llama、Qwen 和 Mistral 家族的各种大小模型）上进行广泛的实验（超过 20,000 个 A100-80G GPU 小时，超过 1,000 个实验），我们的消除实验表明，之前被忽视的策略可以显著提升性能（例如，调整温度可以将推理任务性能提升高达 5%）。此外，我们通过系统地评估六种代表性方法在八种推理任务上的表现，确立了推理时计算的标准基准。这些发现为未来的研究奠定了更坚实的基础。代码可在 https://github.com/usail-hkust/benchmark_inference_time_computation_LL 获取。