LLM2D

摘要

arXiv:2502.04580v1 标题类型: cross 摘要：Transformer模型展示出了 remarkable 的上下文内学习（ICL）能力，通过仅仅基于示例进行条件化调整而无需更新参数，即可适应新任务。实证和理论证据表明，作为一个通用的学习者，ICL 可能会优于针对特定任务的模型。然而，关于Transformer是否以最优方式进行上下文内学习，与原则性的学习算法相比仍不清楚。为了弥合这一差距，我们引入了一个新的框架来量化ICL作为学习算法在简化场景下的最优性。我们的研究发现揭示了一个引人注目的矛盾：虽然ICL最初与贝叶斯最优估计器的效率相当，但在长上下文中其效率显著下降。通过信息论分析，我们展示了效率下降是ICL固有的特点。这些结果阐明了使用ICL作为通用问题解决者的权衡，促进了新一代无需效率递减的即时适应方法。