LLM2D

摘要

arXiv:2505.00661v1 宣传类型: cross 摘要：大型语言模型表现出令人兴奋的能力，但在微调后的泛化上却显示出出乎意料的狭窄范围——从无法泛化到简单的关系反转，到漏掉从训练信息中可以得出的逻辑推断。这些从微调中无法泛化的失败可能妨碍这些模型的实际应用。然而，语言模型的上下文学习显示出不同的归纳偏见，在某些情况下可以更好地泛化。在这里，我们探讨了基于上下文学习和基于微调学习之间的泛化差异。为此，我们构建了几个新的数据集来评估和提高模型从微调数据中泛化的能力。这些数据集构建成将数据集中的知识与预训练知识隔离，以创建干净的泛化测试。我们让预训练的大模型接触到这些数据集中的受控信息子集——或者在上下文中，或者通过微调——并在需要各种类型泛化的测试集上评估其性能。我们发现，在数据匹配的情况下，上下文学习相比微调更具灵活性泛化（尽管我们还发现了一些先前发现的例外情况，例如在较大的知识结构中包含反转时微调也可以泛化）。基于这些发现，我们提出了一个提高微调泛化能力的方法：在微调数据中加入上下文推断。我们展示出，这种方法在我们数据集和其他基准的各个分割上提高了泛化能力。我们的结果对于理解不同学习模式下语言模型的归纳偏见具有重要意义，并实际改进了它们的性能。