摘要
arXiv:2504.19792v1 类型:交叉
摘要:本文建立了上下文结构理论,以数学上描述表示学习或预训练的机制。尽管基础模型取得了显著的经验成功,但对于它们学习了哪些表示以及这些表示为何对于各种下游任务是有用的,这一点尚不明确。对表示学习的科学理解至关重要,尤其是在扩展模型规模带来边际效益递减的情况下,设计新的预训练方法对于进一步进展至关重要。
先前的工作对不同的表示学习方法处理得相当不同,而上下文结构理论提供了一种统一框架来分析这些方法。核心论点认为,表示是从输入 X 和上下文变量 A 之间的关联中学到的。我们证明,如果编码器捕获了这一关联的最多信息,也就是说,我们说编码器学习了上下文结构,那么它在与上下文兼容的任务类别中将是最优的。我们也展示了上下文最实用的情况是在 X 和 A 之间的关联既不过强也不过弱。上下文结构理论的一个重要含义是,单纯增加模型规模将带来边际效益递减,进一步的进步需要更好的上下文。
我们证明了许多预训练目标都可以学习上下文结构,包括有监督学习、自监督学习、生成模型等。然后,我们引入了两种通用目标——SVME 和 KISE,用于学习上下文结构。我们还展示了如何将多个上下文结合起来,这提供了一种简便的方式来从现有上下文创建更好的上下文。然后,我们证明了表示学习的统计学习界。最后,我们讨论了从预训练到下游任务的数据分布转移的影响。