LLM2D
关于基础模型的能力
On the Power of Foundation Models
作者: Yang Yuan
发布日期: 10/23/2024
arXiv ID: oai:arXiv.org:2211.16327v5

摘要

拥有无限多的高质量数据点、无限的计算能力、一个拥有完美训练算法且在预训练任务上保证零泛化误差的无限大的基础模型,该模型可以用于解决所有问题吗?现有的表示、优化或泛化理论无法回答这个问题,因为它们主要研究的问题在这里被假设为不存在。在本文中,我们展示了范畴论为回答这个问题提供了强大的工具。我们证明了三个结果。第一个结果限制了基于提示学习的能力,指出模型能否通过提示解决下游任务取决于该任务是否可表示。第二个结果指出微调没有这种限制,因为具有最小所需能力(直至对称性)的基础模型理论上可以通过微调和足够的资源来解决由预训练任务定义的范畴的下游任务。我们的最终结果可以看作是一种新型的泛化定理,表明基础模型可以使用来自源范畴(例如,文本)的结构信息来生成目标范畴(例如,图像)中未见过的对象。在此过程中,我们提供了一个用于监督学习和自监督学习的范畴框架,这可能具有独立的意义。