LLM2D

摘要

随着人工智能系统变得越来越强大，安全人工智能的需求也变得越来越迫切。人类是人工智能安全的一个极具吸引力的模型：作为唯一已知的能够实现通用智能的智能体，即使在与先前经验显著偏离的条件下，人类也能稳健地执行任务，安全地探索世界，理解语用学，并能够合作以实现其内在目标。智能，当与合作和安全机制相结合时，能够推动持续进步和福祉。这些特性是大脑结构及其所实现的学习算法的函数。因此，神经科学可能掌握着目前尚未充分探索和利用的技术人工智能安全的重要钥匙。在本路线图中，我们重点介绍并批判性地评估了几条受神经科学启发的人工智能安全途径：模拟大脑的表征、信息处理和架构；通过模仿大脑数据和身体来构建强大的感觉和运动系统；利用大脑数据微调人工智能系统；利用神经科学方法提高可解释性；以及扩展认知启发式架构。我们对神经科学如何积极影响人工智能安全提出了一些具体的建议。