LLM2D
人类与AI一致性的障碍与路径:一种博弈论方法
Barriers and Pathways to Human-AI Alignment: A Game-Theoretic Approach
作者: Aran Nayebi
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2502.05934v1

摘要

arXiv:2502.05934v1 宣告类型: 新 摘要: 在什么条件下有能力的人工智能代理可以高效地使其行动与人类偏好一致?更具体地说,在他们足够熟练以与我们协作时,协调需要多长时间,以及在什么情况下它是计算上可行的?这些问题为人工智能对齐的基础问题,有助于定义一个AI代理在人类眼中是“足够安全”的以及具有多大的价值。由于这样的普遍能力强的系统尚未存在,需要理论分析来确定何时可以提供保证—以及这些保证是什么。 我们提出了一种广义的游戏理论框架,该框架在过去的方法中减少了假设,允许我们分析多个目标任务和多个人工智能代理之间对齐的计算复杂性,同时提供了上界和下界。与以往工作通常假设共同的先验知识、理想化的通信或隐式的可处理性不同,我们的框架在最小的假设下正式地描述了对齐的难度。 我们主要的结果表明,即使代理是完全理性和计算上无限制的,对齐仍然可以在任务空间大小的线性时间内以高概率实现。因此,在实际应用场景中,由于任务空间通常随着输入长度呈指数增长,这仍然是不实际的。更加引人注目的是,我们的下界表明,在扩展到大量任务或大量代理时,对齐是无法加速的,突显了大规模对齐的基本计算障碍。 放松这些理想化的假设,我们研究了有噪声消息的计算能力有限的代理(代表着模糊化的意图),结果显示,虽然对齐仍然可以在高概率下成功,但它在任务空间大小、代理数量和任务数量上会导致额外的指数级减速。 最后,我们确定了使对齐更具可行性的条件。