LLM2D

摘要

arXiv:2505.02581v1 宣告类型: 新摘要: 人工智能对齐问题关注确保人工智能（包括AGI和ASI系统）按照人类价值行动，这一问题带来了深刻的挑战。从窄人工智能到通用人工智能（AGI）再到超人工智能的发展过程中，控制和存在风险的担忧日益加剧。本文表明，由于脚本逻辑和计算基础中的数学原理，特别是图灵的计算万能性、哥德尔的不完备性以及查特金的随机性，完全对齐是无法实现的。相反，我们提出拥抱人工智能不对齐或代理的“神经多样性”，作为一种临时策略，即促进竞争性的、部分对齐的代理动态生态系统，可能是唯一可行的方法来缓解风险。通过数学证明和实验设计，我们探讨了不对齐如何作为一种平衡机制可能发挥作用，并且应在促进与最符合人类价值观的代理合作的同时，允许竞争、合作或恶意。我们的主要贡献前提是，人工智能与人类的完全对齐在图灵完备系统中是数学上不可能的，这也是我们在本文中证明的一个特性，这一特性随后被继承到AGI和ASI系统中。我们介绍并测试了基于这种类型扰动和干预分析的“改变观点”攻击，以研究代理如何通过合作、竞争或恶意来中和友好的或不友好的人工智能。