LLM2D

摘要

人们普遍预期，人类总有一天会创造出比我们聪明得多的 AI 系统，从而导致“如何控制超级智能”的未解对齐问题。然而，这个问题不仅自相矛盾，而且可能无法解决。不幸的是，目前用于解决该问题的基于控制的策略不可避免地包含了对不信任的危险表征。如果超级智能无法信任人类，那么我们也无法完全信任它能够可靠地遵循它可能绕过的安全控制。不仅旨在实现永久控制的策略无法保证我们的安全，甚至可能引发许多人所恐惧的灭绝事件。因此，本文提出了一种逻辑上的论证，主张从控制导致的不信任战略性转向以本能为基础的家庭互信模型的 AI 对齐基础建模。由于当前的 AI 已经代表了对人类意图的不信任，因此提出了“超级信任”元策略来防止长期的基础错位，并确保超级智能由内在的基于信任的模式驱动，从而实现安全和保护性的共存。