摘要
受可解释性和可靠性的驱动,我们研究了神经网络在图学习过程中如何表示知识。我们发现了普遍性的迹象,其中等效的表示在各种模型大小(从 $10^2$ 到 $10^9$ 个参数)和上下文中被学习(MLP 玩具模型、LLM 上下文学习和 LLM 训练)。我们表明,这些吸引子表示通过利用知识图关系的属性(例如对称性和元传递性)来优化对看不见的示例的泛化。我们通过展示 LLM 和更简单的神经网络可以被缝合来找到对这种普遍性的实验支持,即通过将一个模型的第一部分缝合到另一个模型的最后部分,仅通过仿射或近似仿射变换来进行。我们假设这种朝着简单性和泛化的动态是由“饥饿带来的智能”驱动的:其中过度拟合通过最小化对稀缺或与其他任务竞争的资源的使用来最小化。