LLM2D
具有反馈的学习稀疏叠加特征的复杂性
The Complexity of Learning Sparse Superposed Features with Feedback
作者: Akash Kumar
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2502.05407v2

摘要

arXiv:2502.05407v2 Announce Type: replace-cross 摘要:深层网络的成功主要归因于其在表示空间中捕捉潜在特征的能力。在本文中,我们研究了通过代理(如大型语言模型(LLM))的反馈,特别是相对的\textit{三元比较},是否可以有效地检索到模型中学习到的特征。这些特征可能代表各种构建块,包括LLM中的字典或马哈拉诺比斯距离协方差矩阵的组成部分。我们分析了在稀疏设置下学习特征矩阵的反馈复杂性。我们的结果在代理可以构建激活的情况下,建立了紧密的边界,并在代理的反馈仅限于分布信息的情况下,在稀疏场景下展示了强大的上界。我们通过两个不同的应用领域的实验验证了我们的理论发现:从递归特征机训练的模型中恢复特征,以及从大型语言模型训练的稀疏自编码器中提取字典。