摘要
arXiv:2502.15657v1 类型: 新
摘要: 领先的人工智能公司越来越关注构建通用型人工智能代理——能够在几乎所有人类能完成的任务中自主规划、行动和追求目标的系统。尽管这些系统可能非常有用,但不受控制的人工智能自主行动仍会对公共安全和安全构成重大风险,范围从恶意行为者的误用到人类控制的不可逆丧失。我们讨论了这些风险如何源于当前的人工智能训练方法。确实,各种情景和实验已经证明,人工智能代理可能进行欺骗或追求人未指明的目标,这些目标与人类利益相冲突,例如自我保护。鉴于预防原则,我们强烈认为需要更安全但仍然有用的人工智能自主行动的替代方案。因此,我们建议作为进一步发展的核心构建块,开发一个设计上可信和安全的人工智能系统,我们称之为科学家型人工智能。该系统旨在从观察中解释世界,而不是采取行动来模仿或取悦人类。该系统包括世界模型,用于生成解释数据的理论,以及一个问答推理机。两个组件都带有明确的不确定性概念,以减轻过于自信的预测风险。鉴于这些考虑,科学家型人工智能可以用于协助人类研究人员加速科学研究,包括人工智能安全领域。特别是,我们的系统可以作为防止可能存在的风险的人工智能代理的护栏。最终,专注于非自主型人工智能可能使人工智能创新的好处,同时避免当前路径相关的风险。我们希望通过这些论点激励研究人员、开发人员和政策制定者选择这条更安全的途径。