LLM2D

摘要

大型语言模型（LLMs）已经展现出非凡的上下文学习（ICL）能力。在本研究中，我们探索了与ICL相关的一个令人惊讶的现象：LLMs可以在单个推理调用期间同时执行多个计算上不同的ICL任务，我们称这种能力为“任务叠加”。我们提供了跨越各种LLM家族和规模的实证证据，表明即使我们训练模型一次上下文学习一个任务，这种现象也会出现。我们提供了理论解释，证明这种能力完全在transformer的表达能力范围内。我们还探索了LLMs在叠加过程中如何内部组合任务向量。此外，我们还表明，更大的模型可以并行解决更多ICL任务，并更好地校准其输出分布。我们的发现提供了对LLMs潜在能力的见解，进一步证实了“LLMs作为模拟器叠加”的观点，并提出了关于使同时执行任务成为可能机制的问题。