LLM2D

摘要

arXiv:2502.03503v1 公告类型: cross 摘要: 我们在几种训练和测试设置下，研究了两个带有数学函数的上下文学习(ICL)任务，以期为变压器模型提供参考。我们的研究扩展了线性函数工作的范围，显示即使是仅包含注意力层的小型变压器模型，在某些条件下也能近似任意多项式函数，进而近似连续函数。我们的模型还可以近似先前未见过的多项式函数类别，以及复杂函数的零点。当提供合适的训练数据和方法时，我们的模型在这项任务上的表现远优于如GPT4之类的语言模型，并且涉及复杂的推理过程。然而，我们的模型也有一些重要的局限性；它们无法在训练分布之外进行泛化，因此没有学习函数的类别形式。我们解释了为什么会这样。