摘要
本文为可扩展的对齐人工智能 (AI) 的发展提供了一条路线图,该路线图基于对自然智能的原理描述。简而言之,通往可扩展的对齐人工智能的可能路径依赖于使人工智能体能够学习一个包含对我们偏好良好模型的世界模型。为此,主要目标是创造能够学习表示世界和其他代理人世界模型的代理人;这是一个属于结构学习(又称因果表示学习)的问题。我们以实现这一目标为目标,揭示了结构学习和对齐问题,以及指导我们前进的原则,将数学、统计学和认知科学中的各种思想综合在一起。1)我们讨论了核心知识、信息几何和模型简化在结构学习中的重要作用,并建议使用核心结构模块来学习各种自然世界。2)我们概述了通过结构学习和心智理论实现对齐代理人的方法。作为说明性示例,我们从数学角度概述了阿西莫夫的机器人三大法则,该法则规定代理人应谨慎行事,以最大程度地减少其他代理人的痛苦。我们通过提出改进的对齐方法来补充此示例。这些观察结果可以指导人工智能的发展,帮助扩展现有的或设计新的对齐结构学习系统。