LLM2D
LLMs信任AI监管吗?博弈 theoretic LLM代理的新兴行为
Do LLMs trust AI regulation? Emerging behaviour of game-theoretic LLM agents
作者: Alessio Buscemi, Daniele Proverbio, Paolo Bova, Nataliya Balabanova, Adeela Bashir, Theodor Cimpeanu, Henrique Correia da Fonseca, Manh Hong Duong, Elias Fernandez Domingos, Antonio M. Fernandes, Marcus Krellner, Ndidi Bianca Ogbo, Simon T. Powers, Fernando P. Santos, Zia Ush Shamszaman, Zhao Song, Alessandro Di Stefano, The Anh Han
发布日期: 4/14/2025
arXiv ID: oai:arXiv.org:2504.08640v1

摘要

arXiv:2504.08640v1 通告类型: 新 摘要: 一般认为,在人工智能开发生态系统中培养信任与合作是推广可信人工智能系统的关键。通过在进化博弈论框架中嵌入大型语言模型(LLM)代理,本文研究了人工智能开发者、监管者和用户之间的复杂互动,模型在不同监管场景下的战略选择。进化博弈论(EGT)被用来定量地建模每个行为者的困境,而LLM提供了额外的复杂性和细微差别,并使重复博弈和性格特点的纳入成为可能。我们的研究揭示了战略性人工智能代理的新兴行为,这些行为倾向于采取比纯博弈论代理更为“悲观”的立场(不信任和有缺陷)。我们观察到,如果用户完全信任,激励措施可以有效地促进有效监管;然而,有条件的信任可能恶化“社会契约”。因此,建立用户信任与监管者声誉之间的良性反馈似乎是引导开发者创建安全人工智能的关键。然而,这种信任出现的水平可能取决于用于测试的具体LLM。因此,我们的研究结果为人工智能监管系统提供了指导,并有助于预测如果使用战略性LLM代理来辅助监管本身时的结果。