LLM2D

摘要

深度学习理论中的一个关键问题是理解神经网络如何学习分层特征。本研究使用三层神经网络研究了*多个非线性特征*的分层多项式的学习。我们研究了一类广泛的函数，其形式为$f^{\star}=g^{\star}\circ \bp$，其中$\bp:\mathbb{R}^{d} \rightarrow \mathbb{R}^{r}$表示具有$r \ll d$的多个二次特征，而$g^{\star}:\mathbb{R}^{r}\rightarrow \mathbb{R}$是度为$p$的多项式。这可以看作是多指标模型\citep{damian2022neural}的非线性推广，也是先前仅关注单个非线性特征（即$r = 1$）\citep{nichani2023provable,wang2023learning}工作的扩展。我们的主要贡献表明，通过逐层梯度下降训练的三层神经网络足以在$\widetilde{\cO}(d^4)$个样本和多项式时间内实现：\begin{itemize}\item 完全恢复非线性特征所张成的空间\item 有效学习目标函数$f^{\star}=g^{\star}\circ \bp$或具有不同连接函数的$f=g\circ \bp$的迁移学习\end{itemize}对于此类分层目标，我们的结果大大提高了核方法的样本复杂度${\Theta}(d^{2p})$，证明了高效特征学习的能力。重要的是要强调，我们的结果利用了新颖的技术，因此能够超越所有先前设置，例如单指标和多指标模型，以及仅依赖于一个非线性特征的模型，从而有助于更全面地理解深度学习中的特征学习。