LLM2D

摘要

arXiv:2505.09289v1 通告类型: 新增摘要: 本研究评估并扩展了 Piatti 等人关于 GovSim 的发现，GovSim 是一种旨在评估大型语言模型（LLMs）在资源共享场景中的协作决策能力的仿真框架。通过复制关键实验，我们验证了关于大型模型（例如 GPT-4-turbo）与小型模型的性能差异的主张。还考察了普遍原则的影响，结果显示，即使在没有该原则的情况下，大型模型也能实现可持续的协作，而小型模型则无法做到这一点。此外，我们提供了多个扩展，以探索此框架在新环境中的适用性。我们评估了其他模型，如 DeepSeek-V3 和 GPT-4o-mini，以测试协作行为是否能在不同架构和模型大小中泛化。此外，我们引入了新的设置：创建了一个异质多智能体环境，研究使用日语指令的场景，并探索了一个“逆环境”，其中智能体必须合作以减轻有害资源分配。结果表明，基准可以应用于新的模型、场景和语言，提供了关于大型语言模型在复杂协作任务中适应性的宝贵见解。此外，涉及异质多智能体系统的实验表明，高性能模型可以影响表现较差模型，使其采纳类似的行为。这一发现对其他基于代理的应用具有重大意义，可能会促进更高效计算资源的使用，并有助于开发更为有效的协作AI系统。