LLM2D

摘要

arXiv:2411.01375v3 通告类型: replace-cross 摘要：在高维空间中进行统计学习极具挑战性，除非存在强大的底层数据结构。最近的基础模型进展表明，文本和图像数据中包含这些隐藏结构，这有助于缓解维度灾难。受非参数统计结果的启发，我们假设这一现象可用于部分解释将复杂任务分解为更简单的子任务。在本文中，我们提出了一种受控实验框架，以测试神经网络是否确实能利用这些“隐藏的因子结构”。我们发现它们确实利用这些潜在模式更有效地学习离散分布。我们还研究了我们的结构性假设与模型泛化能力之间的相互作用。