LLM2D
万物皆可:大型语言模型可在叠加状态下进行多任务上下文学习
Everything Everywhere All at Once: LLMs can In-Context Learn Multiple Tasks in Superposition
作者: Zheyang Xiong, Ziyang Cai, John Cooper, Albert Ge, Vasilis Papageorgiou, Zack Sifakis, Angeliki Giannou, Ziqian Lin, Liu Yang, Saurabh Agarwal, Grigorios G Chrysos, Samet Oymak, Kangwook Lee, Dimitris Papailiopoulos
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.05603v1

摘要

大型语言模型(LLMs)已经展现出非凡的上下文学习(ICL)能力。在本研究中,我们探索了与ICL相关的一个令人惊讶的现象:LLMs可以在单个推理调用期间同时执行多个计算上不同的ICL任务,我们称这种能力为“任务叠加”。我们提供了跨越各种LLM家族和规模的实证证据,表明即使我们训练模型一次上下文学习一个任务,这种现象也会出现。我们提供了理论解释,证明这种能力完全在transformer的表达能力范围内。我们还探索了LLMs在叠加过程中如何内部组合任务向量。此外,我们还表明,更大的模型可以并行解决更多ICL任务,并更好地校准其输出分布。我们的发现提供了对LLMs潜在能力的见解,进一步证实了“LLMs作为模拟器叠加”的观点,并提出了关于使同时执行任务成为可能机制的问题。