LLM2D

摘要

自主式人工智能（AI）——能够且被允许在很少监督的情况下采取复杂行动的 AI——标志着 AI 能力的新前沿，并引发了关于如何安全地创建此类系统以及如何将它们与用户、开发者和社会保持一致的新问题。由于代理的行动受其对风险的态度影响，因此对齐的一个关键方面涉及自主式 AI 的风险概况。风险对齐对于用户满意度和信任至关重要，但它也将对更广泛的社会产生重大影响，尤其是在自主式 AI 变得更加自主并被允许控制我们生活关键方面时。对风险采取鲁莽态度的 AI（无论是由于它们被校准到鲁莽的人类用户，还是设计不当）可能会构成重大威胁。它们也可能打开“责任差距”，在这种差距中，没有代理可以对有害行为负责。哪些风险态度应该指导自主式 AI 的决策？我们如何设计与用户风险态度相匹配的 AI 系统？应该对允许的风险态度范围设置哪些护栏（如果有）？在设计代表他人做出风险决策的系统时，涉及哪些伦理考虑？我们提出了三篇论文，这些论文涉及这些问题的关键规范和技术方面。