摘要
arXiv:2412.02091v2 宣告类型: 替换
摘要:人工智能安全文献中充满了这样的例子:这些强大的AI代理在盲目追求特定且通常是狭隘的目标时,最终对他人造成了无法接受甚至灾难性的附带损害。在这篇文章中,我们考虑了学习和效用最大化代理在多代理环境中采取的行为可能导致的社会危害问题。衡量在这样复杂的多代理环境下社会危害或影响的问题,尤其是在这些代理是通用人工智能(AGI)代理的情况下,这个问题被列为在Everitt等人,2018年提出的开放问题。我们尝试通过基于市场的机制来量化和控制这类社会危害,部分回答这一开放问题。提出的设置涵盖了众多已研究的特殊情况,并且在两个方面比现有的多代理强化学习的机制设计公式更加通用:(i)底层环境是一个基于历史的通用强化学习环境,类似于AIXI;(ii)参与环境的强化学习代理可以有不同的学习策略和规划范围。为了证明提出的设置的实用性,我们对一些关键的学习算法类别进行了概述,并介绍了几个应用实例,包括对纸夹问题和污染控制(采用配额与交易制度)的讨论。