摘要
arXiv:2502.00620v1 Announce Type: cross
摘要:弱到强泛化(W2SG),即弱模型监督强模型,是理解人类如何在未来引导超人类智能的重要类比。令人鼓舞的实验证据表明,强模型可以超越其弱监督者。尽管最近的工作为这一现象提供了理论见解,但弱模型和强模型之间驱动W2SG的交互机制仍不清楚。我们从理论角度研究W2SG,并表明它可以用源自弱模型和强模型内部表示主成分的核来表征。这些核可以用来定义一个空间,在高层次上捕捉弱模型无法学习但可以由强模型学习的内容。将标签投影到这个空间可以量化由于弱监督而强模型未能充分发挥其潜力的程度。这种表征还提供了有关强模型如何校正弱监督中的某些错误的见解,无论是否存在过拟合。我们的理论具有重要的实践意义,提供了一种基于表示的度量,预测W2SG性能趋势,而无需使用标签,如在使用变换器进行分子预测和涉及52个语言模型的5个NLP任务中所展示的。