LLM2D

摘要

为什么生物神经元和人工神经元有时会模块化，每个神经元编码一个有意义的变量，而有时又会将多个变量的表示纠缠在一起？在这项工作中，我们发展了一种关于生物启发式表示（即非负且能量效率高的表示）何时会针对源变量（来源）进行模块化的理论。我们推导出关于源样本的必要和充分条件，这些条件决定了最优生物启发式线性自动编码器中的神经元是否会模块化。我们的理论适用于任何数据集，远远超出了先前工作中研究的统计独立性案例。相反，我们表明，如果源的支撑“足够分散”，则源会模块化。从这个理论中，我们在各种关于数据分布如何影响非线性前馈和循环神经网络在监督和无监督任务上训练的模块化的经验研究中提取并验证了预测。此外，我们将这些思想应用于神经科学数据。首先，我们解释了为什么两项记录工作记忆任务中前额叶活动的研究在记忆是否以正交子空间编码方面存在冲突：由于实验方案中的关键差异，源的支撑不同。其次，我们使用类似的论点来理解为什么运动皮层 RNN 模型中的准备子空间和有效子空间有时仅是正交的。第三，我们研究了内嗅皮层记录中空间和奖励信息的混合，并表明我们的理论比先前的工作更符合数据。第四，我们提出了一系列令人惊讶的设置，其中神经元可以（或看起来）是混合选择性的，而无需像传统理论那样需要复杂的非线性读出。总之，我们的理论规定了神经活动模块化的精确条件，为在脑和机器中诱导和阐明模块化表示提供了工具。