摘要
arXiv:2505.02581v1 宣告类型: 新
摘要: 人工智能对齐问题关注确保人工智能(包括AGI和ASI系统)按照人类价值行动,这一问题带来了深刻的挑战。从窄人工智能到通用人工智能(AGI)再到超人工智能的发展过程中,控制和存在风险的担忧日益加剧。本文表明,由于脚本逻辑和计算基础中的数学原理,特别是图灵的计算万能性、哥德尔的不完备性以及查特金的随机性,完全对齐是无法实现的。相反,我们提出拥抱人工智能不对齐或代理的“神经多样性”,作为一种临时策略,即促进竞争性的、部分对齐的代理动态生态系统,可能是唯一可行的方法来缓解风险。通过数学证明和实验设计,我们探讨了不对齐如何作为一种平衡机制可能发挥作用,并且应在促进与最符合人类价值观的代理合作的同时,允许竞争、合作或恶意。我们的主要贡献前提是,人工智能与人类的完全对齐在图灵完备系统中是数学上不可能的,这也是我们在本文中证明的一个特性,这一特性随后被继承到AGI和ASI系统中。我们介绍并测试了基于这种类型扰动和干预分析的“改变观点”攻击,以研究代理如何通过合作、竞争或恶意来中和友好的或不友好的人工智能。