摘要
arXiv:2505.02581v3 宣告类型: 替换
摘要:AI对齐问题专注于确保人工智能(AI),包括AGI和ASI系统,按人类价值观行动,这是一个深刻的挑战。从狭窄的AI到人工通用智能(AGI)再到超级智能的发展过程中,对控制和存在风险的担忧已经加剧。在这里,我们调查是否可以接受不可避免的AI偏差作为一种条件策略,以促进竞争代理的动态生态系统,作为引导它们遵循更符合人类价值观的趋势和减轻风险的有效途径。我们探讨了偏差可能如何发挥作用,并提出应该促进它作为一种平衡机制,与最符合人类利益的代理合作,以确保没有单一系统会破坏性地占据主导地位。我们贡献的主要前提是对齐是不可避免的,因为从图灵完备系统出发,完全的AI-人类对齐是数学上不可能的,这也是我们在本文中提供的一种证明,该特征随后被传递给AGI和ASI系统。我们引入了基于扰动和干预分析的改变观点攻击测试,以研究人类和代理如何通过合作和竞争来改变或中和友方和敌对方AI。我们表明,开放模型更加多样化,而大多数在专有模型中实施的护栏在控制代理行为方面取得了积极和消极的效果,闭合系统则更易于控制,也可以用于对抗专有的AI系统。我们还表明,人类和AI干预具有不同的影响,因此提出了多种策略。