摘要
在推理时进行计算是增强大型语言模型 (LLMs) 性能的一种强大范式,其中最佳 N 抽样是一种广泛使用的技术。然而,这种方法计算量很大,需要 (1) 外部奖励模型和 (2) 生成多个样本。在这项工作中,我们引入了一种新的生成式自我评估方案,旨在自适应地减少生成的样本数量,同时保持甚至提高性能。我们使用生成式奖励模型公式,使 LLM 能够在生成中期预测重新开始生成将产生更好响应的概率。这些预测无需外部奖励模型即可获得,可用于决定是否生成更多样本、尽早修剪没有希望的样本或选择最佳样本。这种能力非常便宜,因为它涉及生成单个预定义标记。使用从真实未过滤的 LMSYS 用户提示构建的数据集进行训练,Llama 3.1 8B 在 AlpacaEval 上对 GPT-4 的胜率从 21% 提高到 34%,样本数量为 16 个,GSM8K 上的数学性能从 84% 提高到 91%。通过仅在 LLM 确定这样做有利时进行采样并自适应地调整温度退火,我们证明了使用 16 个样本获得的 74% 的改进可以通过平均仅 1.2 个样本实现。我们进一步证明,在生成早期可以修剪 50-75% 的样本,而性能下降最小。总的来说,我们的方法能够在 LLM 推理过程中实现更高效、可扩展的计算利用率。