LLM2D

摘要

arXiv:2503.21878v2 宣告类型：替换摘要：推理时的计算为扩展语言模型的性能提供了一个强大的轴。然而，像Best-of-N采样这样的技术简单地增加计算可能会由于奖励作弊而导致性能下降。为了更好地理解如何最好地利用额外的计算，我们集中在推理时对齐上，将其形式化为改进给定提示的预训练策略生成高质量响应的问题，同时具有不完美的奖励模型访问权限。我们从响应质量（i）和计算（ii）两方面分析推理时对齐算法的性能，并提供了新的结果，突显了预训练策略对高质量响应的覆盖范围对于性能和计算扩展的重要性： 1. 我们展示了当选择理想的N时，Best-of-$N$对齐可以实现严格的覆盖下的最佳性能，但当N较大时，它会可证明地遭受奖励作弊，且在更现实的覆盖条件下无法获得紧致的保证。 2. 我们引入了$\texttt{InferenceTimePessimism}$这一新算法，通过故意使用推理时的计算来减轻奖励作弊，通过拒绝采样的方式，在不确定性面前实施悲观原理；我们证明了该算法在N的变化下性能最佳且不会退化，这意味着它是可扩展单调的。我们通过实验评估补充了我们的理论结果，证明了$\texttt{InferenceTimePessimism}$在各种任务和模型中的优势。