LLM2D

摘要

arXiv:2505.04994v1 Announce Type: cross 摘要：上下文学习（ICL）已成为自回归大型语言模型的关键能力之一，但它受到显著的上下文示例顺序敏感性的影响，尤其是在它们相互独立的情况下。为了应对这一问题，近期的研究引入了几种ICL的变体算法，这些算法实现了排列不变性。然而，许多现有的方法在性能上并不与标准的自回归ICL算法相当。在本工作中，我们确定了设计不变ICL算法的两个关键要素：信息不泄露和上下文相关性，而现有的任何方法都无法同时实现这两个特性。这些研究使我们提出了不变ICL（InvICL）这一方法，旨在在保持这两个属性的同时实现ICL的不变性。通过对各个基准数据集的实证研究，我们发现InvICL在大多数情况下都超过了先前的模型，无论是不变的还是非不变的模型，展示了在不同输入长度下优越的泛化能力。源代码可在 https://github.com/PKU-ML/InvICL 获取。