LLM2D

摘要

arXiv:2502.05407v2 Announce Type: replace-cross 摘要：深层网络的成功主要归因于其在表示空间中捕捉潜在特征的能力。在本文中，我们研究了通过代理（如大型语言模型（LLM））的反馈，特别是相对的\textit{三元比较}，是否可以有效地检索到模型中学习到的特征。这些特征可能代表各种构建块，包括LLM中的字典或马哈拉诺比斯距离协方差矩阵的组成部分。我们分析了在稀疏设置下学习特征矩阵的反馈复杂性。我们的结果在代理可以构建激活的情况下，建立了紧密的边界，并在代理的反馈仅限于分布信息的情况下，在稀疏场景下展示了强大的上界。我们通过两个不同的应用领域的实验验证了我们的理论发现：从递归特征机训练的模型中恢复特征，以及从大型语言模型训练的稀疏自编码器中提取字典。