LLM2D

摘要

arXiv:2504.17404v2 宣告类型: 替换摘要：人工智能（AI）系统变得越来越强大和自主，并可能发展到超越人类智能的水平，即人工超级智能（ASI）。从AI到ASI的过程可能会超出人类的控制，违反人类的价值观，并在极端情况下导致不可逆转的灾难性后果。这引出了一个迫切需要解决的问题：超对齐（superalignment），确保比人类更智能的AI系统与人类（兼容）意图和价值观保持一致。现有可扩展的监督和弱到强的泛化方法在面对ASI时可能变得实际操作上不切实际和不足。我们必须探索更安全和更具包容性的框架和方法来实现超对齐。在这篇论文中，我们重新定义超对齐为人类与AI的共生社会中的共对齐，并强调一个将外部监督和内在主动对齐相结合的框架。外部监督超对齐应基于人类中心的最终决策，辅以可解释的自动化评估和修正，以实现与人类不断变化的价值观的一贯对齐。内在主动超对齐植根于对自己、他人和社会深刻理解，结合自我意识、自我反思和共情，自发地推断人类意图，区分善恶，并主动考虑人类福祉，最终通过迭代互动实现人类与AI的共对齐。外部驱动的监督与内在驱动的主动对齐相结合，通过人类与AI的共对齐赋能可持续共生社会，为实现对人类和共生生态有益的安全和有益的AGI和ASI铺平道路。