LLM2D

摘要

arXiv:2501.14082v2 通知类型: replace-cross 摘要：多语言模型（LM）代理之间的交流已被证明可以扩大语言模型的推理能力。虽然自然语言一直是跨语言模型通信的主要媒介，但将自然语言作为标准似乎并不明显：不仅自然语言通信会产生高昂的推理成本，并且随着代理和消息数量的增加而迅速增加，而且解码过程也会抽象掉大量的有用信息，而这些信息原本可以从内部激活中获取。在这项工作中，我们提出了一种简单的方法，即通过激活来进行通信；具体来说，我们在语言模型B的一个中间层暂停其计算，将B的当前激活与另一个语言模型A的中间激活通过某个函数f结合起来，然后将f的输出传递到B的下一层，并继续前向传播直到解码完成。这种做法可以在不增加任何额外参数和数据的情况下，扩大语言模型在新任务上的应用，并在计算成本上显著低于自然语言通信。我们使用各种函数形式f，在两个实验设置——多玩家协调游戏和推理基准测试——中测试了该方法，并发现它在计算量减少不到四分之一的情况下，实现了对自然语言通信高达27.0%的改进，突显了激活作为替代“语言”进行语言模型之间通信的优越性和鲁棒性。