LLM2D

摘要

arXiv:2503.11299v2 Announce Type: replace-cross 摘要：本文报告了第一个仿脑大型语言模型（BriLLM）。这是一款非Transformer、非GPT、非传统机器学习输入输出控制的生成型语言模型。该模型基于神经网络中有向图上的信号全连接流动（SiFu）定义，并且在整个模型的图中的所有节点都具有可解释性，而非传统机器学习模型仅在输入和输出端具有有限的可解释性。在语言模型场景中，标记被定义为图中的一个节点。按照“最小阻力”原则，随机或用户定义的信号流在网络节点之间流动。预测或生成的目标节点或标记是信号流的目标。作为一种语言模型，BriLLM理论上支持无限长的$n$-gram模型，当模型大小与模型的输入和预测长度无关时。模型的工作中信号流提供了类似于人类大脑认知模式的回忆激活和固有的多模态支持的可能性。目前，我们发布了第一个中文版本的BriLLM，拥有4000个标记、32维度的节点宽度、16个标记长的序列预测能力，其语言模型预测性能与GPT-1相当。更多的计算能力将帮助我们探索上述的无限可能性。