LLM2D
人机博弈:战争游戏模拟中专家与语言模型的行为差异
Human vs. Machine: Behavioral Differences Between Expert Humans and Language Models in Wargame Simulations
作者: Max Lamparth, Anthony Corso, Jacob Ganz, Oriana Skylar Mastro, Jacquelyn Schneider, Harold Trinkunas
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2403.03407v4

摘要

有些人认为,人工智能(AI)的出现将带来更好的决策和更高的军事效能,同时减少人为错误和情绪的影响。然而,关于 AI 系统,尤其是可应用于多种任务的大型语言模型(LLM)在高风险军事决策场景中的行为与人类相比如何,以及其是否会增加升级风险,仍然存在争议。为了测试这种可能性并审查 LLM 用于此类目的的用途,我们设计了一个新的战争游戏实验,该实验邀请了 214 位国家安全专家,旨在考察在一个虚构的中美场景中危机升级的情况,并将人类玩家团队的行为与 LLM 模拟的团队反应在独立的模拟中进行比较。结果表明,LLM 模拟的反应可能更具侵略性,并且会受到场景变化的显著影响。我们发现 LLM 和人类反应在高层面上有相当大的共识,但在个体行动和战略倾向方面存在显著的定量和定性差异。这些差异取决于 LLM 中关于在战略指令下适当暴力程度的内在偏差、LLM 的选择,以及 LLM 是直接为玩家团队做出决定,还是先模拟玩家团队之间的对话。在模拟对话时,讨论缺乏质量,并保持着荒谬的和谐。LLM 模拟无法解释人类玩家的特征,即使对于“和平主义者”或“侵略性反社会者”等极端特征,也显示不出显著的差异。当探究模拟中个体行动的一致性时,测试的 LLM 之间存在偏差,但总体上表现出一定程度的一致性。我们的研究结果促使决策者在赋予自主权或遵循基于 AI 的战略建议之前谨慎行事。