LLM2D
语言模型代理之间通信的激活方式
Communicating Activations Between Language Model Agents
作者: Vignav Ramesh, Kenneth Li
发布日期: 5/9/2025
arXiv ID: oai:arXiv.org:2501.14082v2

摘要

arXiv:2501.14082v2 通知类型: replace-cross 摘要:多语言模型(LM)代理之间的交流已被证明可以扩大语言模型的推理能力。虽然自然语言一直是跨语言模型通信的主要媒介,但将自然语言作为标准似乎并不明显:不仅自然语言通信会产生高昂的推理成本,并且随着代理和消息数量的增加而迅速增加,而且解码过程也会抽象掉大量的有用信息,而这些信息原本可以从内部激活中获取。在这项工作中,我们提出了一种简单的方法,即通过激活来进行通信;具体来说,我们在语言模型B的一个中间层暂停其计算,将B的当前激活与另一个语言模型A的中间激活通过某个函数f结合起来,然后将f的输出传递到B的下一层,并继续前向传播直到解码完成。这种做法可以在不增加任何额外参数和数据的情况下,扩大语言模型在新任务上的应用,并在计算成本上显著低于自然语言通信。我们使用各种函数形式f,在两个实验设置——多玩家协调游戏和推理基准测试——中测试了该方法,并发现它在计算量减少不到四分之一的情况下,实现了对自然语言通信高达27.0%的改进,突显了激活作为替代“语言”进行语言模型之间通信的优越性和鲁棒性。