摘要
arXiv:2410.14086v3 宣告类型: replace-cross
摘要:机器学习的核心目标是泛化。虽然无免费午餐定理指出,在没有进一步假设的情况下无法获得泛化的理论保证,但在实践中,我们观察到能够解释训练数据的简单模型泛化效果最佳:一个被称为奥卡姆剃刀的原则。尽管需要简单模型,但在机器学习中,大多数当前方法仅最小化训练误差,并通过正则化或架构设计间接促进简单性。在这里,我们建立了奥卡姆剃刀与上下文学习之间的联系:某些序列模型(如变换器)在推理时从序列中过去的观察中学习的一种新兴能力。特别是,我们证明了用于训练上下文学习者的下一个标记预测损失直接等同于一种称为预quential编码的数据压缩技术,而最小化这种损失相当于同时最小化训练误差和从上下文中隐式学习的模型的复杂性。我们提供的理论和实验证据不仅为上下文学习提供了一种规范性的解释,还阐明了当前上下文学习方法的不足之处,指出了改进的方向。我们将在 https://github.com/3rdCore/PrequentialCode 上提供我们的代码。