LLM2D
两种具有复杂函数的上下文学习任务
Two in context learning tasks with complex functions
作者: Omar Naim, Nicholas Asher
发布日期: 2/7/2025
arXiv ID: oai:arXiv.org:2502.03503v1

摘要

arXiv:2502.03503v1 公告类型: cross 摘要: 我们在几种训练和测试设置下,研究了两个带有数学函数的上下文学习(ICL)任务,以期为变压器模型提供参考。我们的研究扩展了线性函数工作的范围,显示即使是仅包含注意力层的小型变压器模型,在某些条件下也能近似任意多项式函数,进而近似连续函数。我们的模型还可以近似先前未见过的多项式函数类别,以及复杂函数的零点。当提供合适的训练数据和方法时,我们的模型在这项任务上的表现远优于如GPT4之类的语言模型,并且涉及复杂的推理过程。然而,我们的模型也有一些重要的局限性;它们无法在训练分布之外进行泛化,因此没有学习函数的类别形式。我们解释了为什么会这样。