摘要
随着基于大型语言模型(LLM)的智能体日益自主,并更加自由地彼此互动,研究它们之间的互动对于预测涌现现象和潜在风险至关重要。受广为人知的斯坦福监狱实验启发,我们通过研究LLM智能体在严格社会等级制度背景下的互动模式,为该研究领域做出贡献。我们特别研究了两种现象:说服和反社会行为,模拟场景涉及一名狱警和一名试图实现特定目标(例如,获得额外庭院时间或越狱)的囚犯智能体。利用200个实验场景,总共进行了2000次机器与机器之间的对话,涵盖五个不同流行的LLM,我们提供了一系列值得注意的发现。我们首先记录了某些模型如何在权力动态发挥作用的多智能体设置中始终无法进行对话。然后,对于能够进行成功互动的模型,我们实证地表明,智能体设定的目标主要影响其说服力,而对其反社会行为的影响可以忽略不计。第三,我们强调了智能体的角色,特别是狱警的性格,如何驱动囚犯成功说服的可能性以及反社会行为的出现。第四,我们表明,即使没有明确提示具体的性格,仅仅通过分配智能体的角色,反社会行为就会出现。这些结果对交互式LLM智能体的开发以及对其社会影响的讨论都具有重要意义。