摘要
arXiv:2503.21878v1 宣告类型: 新
摘要: 推理时计算为扩展语言模型的性能提供了一个重要的维度,但通过如Best-of-$N$采样等技术简单地扩展计算可能会因为奖励作弊而导致性能下降。为了从理论上理解如何最好地利用额外的计算,我们专注于推理时对齐,将其形式化为改进预训练策略对特定提示响应的问题,前提可以访问一个不完美的奖励模型。我们从响应质量和计算量两个方面分析推理时对齐算法的性能,并提供了新的结果,突出了预训练策略对高质量响应的覆盖对于性能和计算扩展的重要性:
1. 我们展示了,对于严格的覆盖概念,具有理想选择的Best-of-$N$对齐可以实现最佳性能,但在$N$较大时,它可证明会遭受奖励作弊的困扰,并在更现实的覆盖条件下无法实现严格的保证。
2. 我们引入了$\texttt{InferenceTimePessimism}$,一种新的算法,通过故意利用推理时的计算来减轻奖励作弊,通过拒绝采样利用不确定性中的悲观原则;我们证明了它的性能是最佳的,并且不会随着$N$的增加而下降,这意味着它是计算扩展单调的。
我们通过实验评估补充了我们的理论结果,展示了$\texttt{InferenceTimePessimism}$在各种任务和模型上的益处。