LLM2D
波斯地毯:利用大规模对称性解决叠加玩具模型
The Persian Rug: solving toy models of superposition using large-scale symmetries
作者: Aditya Cowsik, Kfir Dolev, Alex Infanger
发布日期: 10/23/2024
arXiv ID: oai:arXiv.org:2410.12101v2

摘要

我们对一个最小非线性稀疏数据自动编码器在高维输入极限情况下所学习的算法给出了完整的机制描述。该模型最初在 arXiv:2209.10652 中提出,通过一个线性层压缩稀疏数据向量,并使用另一个线性层和 ReLU 激活函数解压缩。我们注意到,当数据是置换对称的(没有输入特征是特权的)时,大型模型可靠地学习了一种算法,该算法仅通过其大规模统计信息对单个权重敏感。对于这些模型,损失函数变得可解析。利用这种理解,我们给出了高稀疏性下损失的显式缩放,并证明该模型在最近提出的架构中接近最优。特别是,更改或添加任何逐元素或过滤操作到激活函数最多只能将模型的性能提高一个常数因子。最后,我们向前设计了一个具有必要对称性的模型,并证明其损失与训练模型的损失完全匹配。与训练模型权重不同,人工权重中的低随机性导致了类似波斯地毯的奇异分形结构,算法对此一无所知。我们的工作通过引入理解自动编码器结构的技术,为神经网络的可解释性做出了贡献。在 https://github.com/KfirD/PersianRug 上可以找到用于重现我们结果的代码。