摘要
arXiv:2504.08640v1 通告类型: 新
摘要: 一般认为,在人工智能开发生态系统中培养信任与合作是推广可信人工智能系统的关键。通过在进化博弈论框架中嵌入大型语言模型(LLM)代理,本文研究了人工智能开发者、监管者和用户之间的复杂互动,模型在不同监管场景下的战略选择。进化博弈论(EGT)被用来定量地建模每个行为者的困境,而LLM提供了额外的复杂性和细微差别,并使重复博弈和性格特点的纳入成为可能。我们的研究揭示了战略性人工智能代理的新兴行为,这些行为倾向于采取比纯博弈论代理更为“悲观”的立场(不信任和有缺陷)。我们观察到,如果用户完全信任,激励措施可以有效地促进有效监管;然而,有条件的信任可能恶化“社会契约”。因此,建立用户信任与监管者声誉之间的良性反馈似乎是引导开发者创建安全人工智能的关键。然而,这种信任出现的水平可能取决于用于测试的具体LLM。因此,我们的研究结果为人工智能监管系统提供了指导,并有助于预测如果使用战略性LLM代理来辅助监管本身时的结果。