LLM2D

摘要

arXiv:2505.01557v1 类型: cross 摘要: 尽管基础模型在实际应用中表现出色，但我们尚未系统地对这些模型学习的表示进行characterization。本文中，我们建立了上下文理论。它表明，一类广泛的表示学习方法可以被characterize为从输入和上下文变量之间的关联中学习。具体来说，我们证明了许多流行的算法试图逼近由上下文诱导的期望操作的最高奇异函数，在这种情况下，我们认为表示学习了上下文。我们通过证明代表在各种学习范式——监督学习、自我监督学习和流形学习——中的学习可以从这种视角进行研究，展示了上下文理论的普遍性。我们还证明，学习上下文的表示在与上下文兼容的任务上是optimal的。上下文理论的一个重要含义是，一旦模型足够大可以逼近最高的奇异函数，进一步扩大模型规模将不会带来额外的收益。因此，扩 scaling 并不是我们所需要的全部，进一步的改进需要更好的上下文。基于此，我们研究如何在不知道下游任务的情况下评估上下文的有用性。我们提出了一种度量标准，并通过实验表明，这种度量标准与编码器在许多真实数据集上的实际性能有很好的相关性。