LLM2D
通过元学习实现抽象空间推理中的系统泛化能力
Enabling Systematic Generalization in Abstract Spatial Reasoning through Meta-Learning for Compositionality
作者: Philipp Mondorf, Shijia Zhou, Monica Riedler, Barbara Plank
发布日期: 4/3/2025
arXiv ID: oai:arXiv.org:2504.01445v1

摘要

arXiv:2504.01445v1 系统泛化类型: 新 摘要: 系统泛化是指理解并生成已知组件的新颖组合的能力。尽管大型语言模型(LLMs)在各个领域取得了进展,但这些模型往往无法将知识扩展到新颖的组合场景中,揭示了系统泛化方面的显著局限性。关于神经网络是否具备系统泛化的能力,一直以来存在争议,最近的研究表明,为组合性设计的元学习方法可以显著增强这种能力。然而,这些见解主要局限于语言问题,其在其他任务中的适用性仍是一个开放的问题。在本研究中,我们扩展了组合性的元学习方法,将其应用到抽象空间推理领域。为此,我们引入了SYGAR数据集,旨在评估模型从已知的二维对象几何变换(如平移、旋转)到新颖组合变换(如平移+旋转)的能力。我们的结果显示,通过组合性元学习训练的基于Transformer的编码器-解码器模型,能够系统地泛化到先前未见过的变换组合中,大幅超过了包括o3-mini、GPT-4o和Gemini 2.0 Flash在内的最新语言模型,这些模型未能表现出类似的行为。我们的研究结果表明,元学习在促进系统性方面有效,不仅限于语言任务,这表明了一个更有前景的方向,即开发更为稳健和通用的模型。