摘要
深度学习理论中的一个关键问题是理解神经网络如何学习分层特征。本研究使用三层神经网络研究了*多个非线性特征*的分层多项式的学习。我们研究了一类广泛的函数,其形式为$f^{\star}=g^{\star}\circ \bp$,其中$\bp:\mathbb{R}^{d} \rightarrow \mathbb{R}^{r}$表示具有$r \ll d$的多个二次特征,而$g^{\star}:\mathbb{R}^{r}\rightarrow \mathbb{R}$是度为$p$的多项式。这可以看作是多指标模型\citep{damian2022neural}的非线性推广,也是先前仅关注单个非线性特征(即$r = 1$)\citep{nichani2023provable,wang2023learning}工作的扩展。我们的主要贡献表明,通过逐层梯度下降训练的三层神经网络足以在$\widetilde{\cO}(d^4)$个样本和多项式时间内实现:\begin{itemize}\item 完全恢复非线性特征所张成的空间\item 有效学习目标函数$f^{\star}=g^{\star}\circ \bp$或具有不同连接函数的$f=g\circ \bp$的迁移学习\end{itemize}对于此类分层目标,我们的结果大大提高了核方法的样本复杂度${\Theta}(d^{2p})$,证明了高效特征学习的能力。重要的是要强调,我们的结果利用了新颖的技术,因此能够超越所有先前设置,例如单指标和多指标模型,以及仅依赖于一个非线性特征的模型,从而有助于更全面地理解深度学习中的特征学习。