LLM2D
重定义超对齐:从弱到强对齐到人-AI共对齐再到可持续共生社会
Redefining Superalignment: From Weak-to-Strong Alignment to Human-AI Co-Alignment to Sustainable Symbiotic Society
作者: Yi Zeng, Feifei Zhao, Yuwei Wang, Enmeng Lu, Yaodong Yang, Lei Wang, Chao Liu, Yitao Liang, Dongcheng Zhao, Bing Han, Haibo Tong, Yao Liang, Dongqi Liang, Kang Sun, Boyuan Chen, Jinyu Fan
发布日期: 4/28/2025
arXiv ID: oai:arXiv.org:2504.17404v2

摘要

arXiv:2504.17404v2 宣告类型: 替换 摘要:人工智能(AI)系统变得越来越强大和自主,并可能发展到超越人类智能的水平,即人工超级智能(ASI)。从AI到ASI的过程可能会超出人类的控制,违反人类的价值观,并在极端情况下导致不可逆转的灾难性后果。这引出了一个迫切需要解决的问题:超对齐(superalignment),确保比人类更智能的AI系统与人类(兼容)意图和价值观保持一致。现有可扩展的监督和弱到强的泛化方法在面对ASI时可能变得实际操作上不切实际和不足。我们必须探索更安全和更具包容性的框架和方法来实现超对齐。在这篇论文中,我们重新定义超对齐为人类与AI的共生社会中的共对齐,并强调一个将外部监督和内在主动对齐相结合的框架。外部监督超对齐应基于人类中心的最终决策,辅以可解释的自动化评估和修正,以实现与人类不断变化的价值观的一贯对齐。内在主动超对齐植根于对自己、他人和社会深刻理解,结合自我意识、自我反思和共情,自发地推断人类意图,区分善恶,并主动考虑人类福祉,最终通过迭代互动实现人类与AI的共对齐。外部驱动的监督与内在驱动的主动对齐相结合,通过人类与AI的共对齐赋能可持续共生社会,为实现对人类和共生生态有益的安全和有益的AGI和ASI铺平道路。