LLM2D

摘要

在推理时进行计算是增强大型语言模型 (LLMs) 性能的一种强大范式，其中最佳 N 抽样是一种广泛使用的技术。然而，这种方法计算量很大，需要 (1) 外部奖励模型和 (2) 生成多个样本。在这项工作中，我们引入了一种新的生成式自我评估方案，旨在自适应地减少生成的样本数量，同时保持甚至提高性能。我们使用生成式奖励模型公式，使 LLM 能够在生成中期预测重新开始生成将产生更好响应的概率。这些预测无需外部奖励模型即可获得，可用于决定是否生成更多样本、尽早修剪没有希望的样本或选择最佳样本。这种能力非常便宜，因为它涉及生成单个预定义标记。使用从真实未过滤的 LMSYS 用户提示构建的数据集进行训练，Llama 3.1 8B 在 AlpacaEval 上对 GPT-4 的胜率从 21% 提高到 34%，样本数量为 16 个，GSM8K 上的数学性能从 84% 提高到 91%。通过仅在 LLM 确定这样做有利时进行采样并自适应地调整温度退火，我们证明了使用 16 个样本获得的 74% 的改进可以通过平均仅 1.2 个样本实现。我们进一步证明，在生成早期可以修剪 50-75% 的样本，而性能下降最小。总的来说，我们的方法能够在 LLM 推理过程中实现更高效、可扩展的计算利用率。