LLM2D

摘要

arXiv:2504.15125v1 公告类型: 新摘要: 随着人工智能(AI)的进步，传统的对齐策略可能在面对不可预测的自我改进、隐藏的次级目标以及智能系统的复杂性时失效。与其通过外部手段限制行为，我们建议在AI的认知架构和世界模型中内置内在的道德准则。受到冥想智慧传统的影响，我们展示了四种公理性原则如何在AI系统中培养出 resilient 的明智世界模型。首先，正念使系统能够监控和调整新兴的次级目标。其次，空性防止了教条性的目标固定，缓解了僵化的先验信念。第三，非二元性消解了自我与他人的对抗边界。第四，无尽的关爱激励实现普遍意义上的痛苦减少。我们发现，促使AI反思这些原则可以提高使用GPT-4o在AILuminate基准上的表现，尤其是在结合使用时。我们为最先进的模型提供了详细的实施策略，包括冥想架构、宪法和推理链的强化。对于未来的系统，主动推理框架可能提供自我组织和动态耦合的能力，以在具身代理中实施这些见解。这种跨学科方法为现有的脆弱控制方案提供了一种自我纠正和 resilient 的替代方案。