摘要
arXiv:2505.05197v1 宣告类型: 新
摘要: 人工智能(AI)系统越来越多地处于其决策具有实际后果的位置,例如调节在线空间、进行研究和提供政策建议。确保它们以安全且伦理上可接受的方式运行至关重要。然而,大多数解决方案都是一种一刀切的“对齐”形式。我们担心,这类系统忽视持久的道德多样性,可能会引发抵制、侵蚀信任,并瓦解我们的机构。本文将这一根本问题追溯到一个通常未明言的理性趋同公理:在理想条件下,理性的行动者将在长期对话中趋于一致,达成单一的道德准则。将这一前提视为可选且存疑的,我们提出了所谓的适当性框架:这是一种基于冲突理论、文化演化、多智能体系统和机构经济学的方法。适当性框架将持续的分歧视为常态,并通过应用四个原则进行设计:(1)情境基础,(2)社群定制,(3)持续适应,以及(4)多层次治理。我们认为,采用这些设计原则是一种将主要对齐比喻从道德统一转向更有效的冲突管理比喻的好方法,并且采取这一步骤既是值得向往的,也是紧迫的。