LLM2D

摘要

有些人认为，人工智能（AI）的出现将带来更好的决策和更高的军事效能，同时减少人为错误和情绪的影响。然而，关于 AI 系统，尤其是可应用于多种任务的大型语言模型（LLM）在高风险军事决策场景中的行为与人类相比如何，以及其是否会增加升级风险，仍然存在争议。为了测试这种可能性并审查 LLM 用于此类目的的用途，我们设计了一个新的战争游戏实验，该实验邀请了 214 位国家安全专家，旨在考察在一个虚构的中美场景中危机升级的情况，并将人类玩家团队的行为与 LLM 模拟的团队反应在独立的模拟中进行比较。结果表明，LLM 模拟的反应可能更具侵略性，并且会受到场景变化的显著影响。我们发现 LLM 和人类反应在高层面上有相当大的共识，但在个体行动和战略倾向方面存在显著的定量和定性差异。这些差异取决于 LLM 中关于在战略指令下适当暴力程度的内在偏差、LLM 的选择，以及 LLM 是直接为玩家团队做出决定，还是先模拟玩家团队之间的对话。在模拟对话时，讨论缺乏质量，并保持着荒谬的和谐。LLM 模拟无法解释人类玩家的特征，即使对于“和平主义者”或“侵略性反社会者”等极端特征，也显示不出显著的差异。当探究模拟中个体行动的一致性时，测试的 LLM 之间存在偏差，但总体上表现出一定程度的一致性。我们的研究结果促使决策者在赋予自主权或遵循基于 AI 的战略建议之前谨慎行事。