LLM2D
反思智慧以实现超级对齐
Contemplative Wisdom for Superalignment
作者: Ruben Laukkonen, Fionn Inglis, Shamil Chandaria, Lars Sandved-Smith, Jakob Hohwy, Jonathan Gold, Adam Elwood
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.15125v1

摘要

arXiv:2504.15125v1 公告类型: 新 摘要: 随着人工智能(AI)的进步,传统的对齐策略可能在面对不可预测的自我改进、隐藏的次级目标以及智能系统的复杂性时失效。与其通过外部手段限制行为,我们建议在AI的认知架构和世界模型中内置内在的道德准则。受到冥想智慧传统的影响,我们展示了四种公理性原则如何在AI系统中培养出 resilient 的明智世界模型。首先,正念使系统能够监控和调整新兴的次级目标。其次,空性防止了教条性的目标固定,缓解了僵化的先验信念。第三,非二元性消解了自我与他人的对抗边界。第四,无尽的关爱激励实现普遍意义上的痛苦减少。我们发现,促使AI反思这些原则可以提高使用GPT-4o在AILuminate基准上的表现,尤其是在结合使用时。我们为最先进的模型提供了详细的实施策略,包括冥想架构、宪法和推理链的强化。对于未来的系统,主动推理框架可能提供自我组织和动态耦合的能力,以在具身代理中实施这些见解。这种跨学科方法为现有的脆弱控制方案提供了一种自我纠正和 resilient 的替代方案。