LLM2D

摘要

大型预训练图像处理神经网络正被嵌入到自动驾驶汽车或机器人等自主代理中，这就引出了一个问题：尽管这些系统具有不同的架构和训练机制，它们如何彼此沟通周围的世界。作为朝这个方向迈出的第一步，我们系统地探索了在由多种最先进的预训练视觉网络组成的群体中进行指称性沟通的任务，结果表明，它们能够以自监督的方式发展出一种共享协议来指称目标对象（在一组候选对象中）。这种共享协议在一定程度上也可以用于沟通以前从未见过的不同粒度的对象类别。此外，一个最初不属于现有群体的视觉网络可以轻松地学习该群体的协议。最后，我们定性和定量地研究了涌现协议的特性，提供了一些证据表明它正在捕捉对象的较高层次语义特征。