摘要
arXiv:2411.18526v2 安全类型: 替换
摘要:随着人工智能系统的日益强大,确保人工智能安全的需求也变得更加紧迫。人类是人工智能安全的一个诱人的模型:作为唯一已知能够实现通用智能的代理,他们在与以前经验显著不同的条件下表现出色,安全地探索世界、理解语用性,并能够合作以实现其内在目标。当与合作和安全机制结合时,智能可以推动持续的进步和福祉。这些属性取决于大脑的架构及其所实现的学习算法。因此,神经科学可能持有目前尚未充分利用的重要钥匙,以解决技术人工智能安全问题。在这份路线图中,我们强调并批判性地评估了几条受神经科学启发的人工智能安全路径:模仿大脑的表示、信息处理和架构;从模仿脑数据和身体构建稳健的感觉和运动系统;在脑数据上微调人工智能系统;利用神经科学方法推进可解释性;以及扩展认知启发的架构。我们提出了一些具体的建议,说明神经科学如何能够积极影响人工智能安全。