摘要
arXiv:2504.17404v2 宣告类型: 替换
摘要:人工智能(AI)系统变得越来越强大和自主,并可能发展到超越人类智能的水平,即人工超级智能(ASI)。从AI到ASI的过程可能会超出人类的控制,违反人类的价值观,并在极端情况下导致不可逆转的灾难性后果。这引出了一个迫切需要解决的问题:超对齐(superalignment),确保比人类更智能的AI系统与人类(兼容)意图和价值观保持一致。现有可扩展的监督和弱到强的泛化方法在面对ASI时可能变得实际操作上不切实际和不足。我们必须探索更安全和更具包容性的框架和方法来实现超对齐。在这篇论文中,我们重新定义超对齐为人类与AI的共生社会中的共对齐,并强调一个将外部监督和内在主动对齐相结合的框架。外部监督超对齐应基于人类中心的最终决策,辅以可解释的自动化评估和修正,以实现与人类不断变化的价值观的一贯对齐。内在主动超对齐植根于对自己、他人和社会深刻理解,结合自我意识、自我反思和共情,自发地推断人类意图,区分善恶,并主动考虑人类福祉,最终通过迭代互动实现人类与AI的共对齐。外部驱动的监督与内在驱动的主动对齐相结合,通过人类与AI的共对齐赋能可持续共生社会,为实现对人类和共生生态有益的安全和有益的AGI和ASI铺平道路。