LLM2D

摘要

arXiv:2408.02288v3 宣告类型: replace-cross 摘要：大规模语言模型展现出令人惊讶的上下文内学习能力——能够使用一条提示生成对查询的预测，而无需额外训练，这与传统的监督学习截然不同。因此，提供一种机械解释并将这种经验现象与物理学联系起来是一个挑战，至今尚未解决。我们研究了一个简单但表达能力强的变压器，其带有线性注意机制，并将该结构映射到一个带有实值自旋的自旋玻璃模型，其中，耦合和场解释了数据中的内在无序。自旋玻璃模型解释了在预训练过程中权重参数彼此之间的互动方式，并进一步阐明了为什么仅仅通过提供一条提示就能预测一个未见过的功能，而无需进一步训练。我们的理论揭示了，对于单实例学习，增加任务多样性会导致上下文内学习的出现，这使得玻尔兹曼分布能够收敛到唯一的正确权重参数解。因此，预训练的变压器在新的提示设置中展示了预测能力。所提出的可解析模型因此为思考如何解释大规模语言模型许多令人 intrigue 但令人困惑的特性提供了有希望的途径。