LLM2D

摘要

近年来，对神经网络的理解取得了进展，表明叠加（单个神经元同时表示多个特征的能力）是大型网络计算效率的关键机制。本文探讨了叠加计算的理论基础，重点关注明确的、可证明正确的算法及其效率。我们给出了第一个下界，表明对于广泛的类别问题（包括排列和成对逻辑运算），在叠加中计算的神经网络至少需要 $\Omega(m' \log m')$ 个参数和 $\Omega(\sqrt{m' \log m'})$ 个神经元，其中 $m'$ 是被计算的输出特征的数量。这意味着任何“彩票”稀疏子网络必须至少具有 $\Omega(m' \log m')$ 个参数，无论初始密集网络的大小如何。相反，我们展示了一个几乎紧密的上线：像成对 AND 这样的逻辑运算可以使用 $O(\sqrt{m'} \log m')$ 个神经元和 $O(m' \log^2 m')$ 个参数进行计算。因此，在叠加中计算（本文的主题）和在叠加中表示特征（根据 Johnson-Lindenstrauss 引理，可能只需要 $O(\log m')$ 个神经元）之间存在指数级差距。我们希望我们的结果为在神经网络可解释性研究中使用复杂性理论技术开辟一条道路。