LLM2D

摘要

arXiv:2504.13101v1 类型: cross 摘要：自我监督学习（SSL）推动了许多当前的AI系统。随着研究兴趣和投资的增长，SSL的设计空间不断扩展。遵循柏拉图代表假说（PRH）的柏拉图视角（Platonic view）表明，尽管采用不同的方法和工程手段，所有表示最终会收敛到同一个柏拉图理想。然而，这一现象缺乏精确的理论解释。通过综合一致可分性理论（IT）的证据，我们展示了PRH可以在SSL中出现。然而，当前的IT无法解释SSL的经验成功。为了弥合理论与实践之间的差距，我们提出了扩展IT的观点，称之为单一可分性理论（SITh），这是一种更广泛的理论框架，涵盖了整个SSL流程。SITh将允许对SSL中的隐式数据假设进行更深入的理解，并推动该领域朝着学习更具解释性和泛化性的表示方向发展。我们指出了未来研究中的三个关键方向：1）SSL的训练动力学和收敛性质；2）有限样本、批量大小和数据多样性的影响；3）归纳偏见在架构、增强、初始化方案和优化器中的作用。