LLM2D
"Cooperate or Collapse: Emergence of Sustainable Cooperation in a Society of LLM Agents" 的 reproducibility 研究
Reproducibility Study of "Cooperate or Collapse: Emergence of Sustainable Cooperation in a Society of LLM Agents"
作者: Pedro M. P. Curvo, Mara Dragomir, Salvador Torpes, Mohammadmahdi Rahimi
发布日期: 5/15/2025
arXiv ID: oai:arXiv.org:2505.09289v1

摘要

arXiv:2505.09289v1 通告类型: 新增 摘要: 本研究评估并扩展了 Piatti 等人关于 GovSim 的发现,GovSim 是一种旨在评估大型语言模型(LLMs)在资源共享场景中的协作决策能力的仿真框架。通过复制关键实验,我们验证了关于大型模型(例如 GPT-4-turbo)与小型模型的性能差异的主张。还考察了普遍原则的影响,结果显示,即使在没有该原则的情况下,大型模型也能实现可持续的协作,而小型模型则无法做到这一点。此外,我们提供了多个扩展,以探索此框架在新环境中的适用性。我们评估了其他模型,如 DeepSeek-V3 和 GPT-4o-mini,以测试协作行为是否能在不同架构和模型大小中泛化。此外,我们引入了新的设置:创建了一个异质多智能体环境,研究使用日语指令的场景,并探索了一个“逆环境”,其中智能体必须合作以减轻有害资源分配。结果表明,基准可以应用于新的模型、场景和语言,提供了关于大型语言模型在复杂协作任务中适应性的宝贵见解。此外,涉及异质多智能体系统的实验表明,高性能模型可以影响表现较差模型,使其采纳类似的行为。这一发现对其他基于代理的应用具有重大意义,可能会促进更高效计算资源的使用,并有助于开发更为有效的协作AI系统。