LLM2D
组合泛化需要的不仅是分解表示
Compositional Generalization Requires More Than Disentangled Representations
作者: Qiyao Liang, Daoyuan Qian, Liu Ziyin, Ila Fiete
发布日期: 2/3/2025
arXiv ID: oai:arXiv.org:2501.18797v1

摘要

arXiv:2501.18797v1 类型: 交叉 摘要:组合能力——能够从有限的手段中生成众多变体——被认为是在强大泛化中起作用的基础。然而,组合泛化仍然是深度学习中的一个关键挑战。一种广泛持有的假设是,学习解耦(因子化)表示自然支持这种外推。然而,实验证据相互矛盾,许多生成模型在识别和组合因子以生成分布外(OOD)样本方面均未表现出色。在这项工作中,我们探讨了一个受控的2D高斯“凸起”生成任务,表明当使用部分数据进行训练时,标准生成架构在OOD区域会失败,即使提供了完全解耦的$(x, y)$坐标,这些坐标在后续层中重新排列。通过检查模型学习到的核和流形几何,我们表明这种失败反映了生成策略中的“记忆”策略,即通过叠加训练数据的超空间,而不是通过结合真正分解的特征。我们展示了通过架构修改或精选训练数据,在整个维度表示(像素)空间中生成解耦表示的模型可以高度高效且有效,学习在OOD区域组合。这些发现强调,抽象表示中的分解/解耦表示瓶颈是不足的:模型必须在表示空间中积极维护或诱导分解,才能实现稳健的组合泛化。