LLM2D

摘要

arXiv:2501.18797v1 类型: 交叉摘要：组合能力——能够从有限的手段中生成众多变体——被认为是在强大泛化中起作用的基础。然而，组合泛化仍然是深度学习中的一个关键挑战。一种广泛持有的假设是，学习解耦（因子化）表示自然支持这种外推。然而，实验证据相互矛盾，许多生成模型在识别和组合因子以生成分布外（OOD）样本方面均未表现出色。在这项工作中，我们探讨了一个受控的2D高斯“凸起”生成任务，表明当使用部分数据进行训练时，标准生成架构在OOD区域会失败，即使提供了完全解耦的$(x, y)$坐标，这些坐标在后续层中重新排列。通过检查模型学习到的核和流形几何，我们表明这种失败反映了生成策略中的“记忆”策略，即通过叠加训练数据的超空间，而不是通过结合真正分解的特征。我们展示了通过架构修改或精选训练数据，在整个维度表示（像素）空间中生成解耦表示的模型可以高度高效且有效，学习在OOD区域组合。这些发现强调，抽象表示中的分解/解耦表示瓶颈是不足的：模型必须在表示空间中积极维护或诱导分解，才能实现稳健的组合泛化。