LLM2D

摘要

arXiv:2409.14981v1 公告类型: 交叉摘要: 许多机器学习模型被提出，旨在实现系统性泛化：通过结合先前经验中的各个方面来推理新情况的能力。这些模型利用了组合架构，旨在学习专门针对任务中结构的专业模块，这些模块可以组合起来解决具有类似结构的新问题。尽管这些架构的组合性是由设计保证的，但模块的专业化却不是。在这里，我们从理论上研究了网络模块在数据集中专门化于有用结构并实现系统性泛化的能力。为此，我们引入了一个由实际系统性泛化基准启发的小型数据集空间。从这个数据集空间中，我们提出了系统性的数学定义，并研究了线性神经模块在解决任务组成部分时的学习动态。我们的结果揭示了模块专业化的困难，成功专业化所需的要素，以及实现系统性所需的模块化架构的必要性。最后，我们确认了在我们可处理的设置中的理论结果可以推广到更复杂的数据集和非线性架构。