摘要
arXiv:2502.13329v1 宣布类型: cross
摘要:自回归语言模型通过顺序预测生成下一个标记来输出文本,现代方法如链式思考(CoT)提示能够通过增加生成的标记数量来实现最先进的推理能力。然而,是否有时候我们可以在计算早期就推断出模型的行为(例如,在回答问题时选择不作答),从而使得生成变得不必要的问题?我们表明,仅通过输入标记的内部表示,我们往往可以准确地预测整个输出序列的最终行为,而不仅仅是下一个标记。我们利用这一能力并在此内部状态下学习探针来创建早期警告(和退出)系统。具体来说,如果探针能够自信地估计语言模型将如何表现,那么该系统将完全避免生成标记,而是返回估计的行为。在涵盖五个不同任务的27个文本分类数据集中,我们应用此方法来估计在CoT提示下语言模型的最终答案,平均减少了65%的推理成本,同时最坏情况下准确率损失不超过1.4%。我们展示了该方法的潜力,可以在模型选择不回答问题、无法遵循输出格式规范或给出低置信度响应之前抢先识别。我们探讨了该能力的局限性,显示探针可以在未见数据集上泛化,但在语言模型输出更长时表现较差,并且在预测需要模型本身缺乏的知识才能获取的属性时显得力不从心。令人鼓舞的是,性能与模型规模成正比,表明该方法适用于最大的模型。