摘要
arXiv:2502.00620v2 宣告类型: replace-cross
摘要:弱到强泛化(W2SG),即弱模型监督强模型,为理解未来人类如何引导超人类智能提供了重要的类比。一些有希望的实验证据表明,强模型可以超越其弱的监督者。虽然最近的工作已经为这一现象提供了理论上的见解,但弱模型和强模型之间交互作用如何驱动W2SG这一问题仍然不清楚。我们通过理论视角对W2SG进行研究,并证明它可以使用从弱模型和强模型内部表示的主要成分导出的核来表征。这些核可以用来定义一个空间,在高层次上,它可以捕捉弱模型无法学习但可由强模型学习的东西。将标签投影到该空间可以量化由于弱监督而强模型未能充分发挥其潜力的程度。这种表征还提供了有关强模型如何纠正某些弱监督中的错误的见解,无论是否存在过拟合。我们的理论具有重大的实际意义,提供了一种基于表示的度量,可以在不需要标签的情况下预测W2SG性能趋势,在分子预测任务和涉及52个大语言模型的5个NLP任务中进行了实验验证。