LLM2D
代理人工智能系统中的风险对齐
Risk Alignment in Agentic AI Systems
作者: Hayley Clatterbuck, Clinton Castro, Arvo Mu\~noz Mor\'an
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2410.01927v1

摘要

自主式人工智能(AI)——能够且被允许在很少监督的情况下采取复杂行动的 AI——标志着 AI 能力的新前沿,并引发了关于如何安全地创建此类系统以及如何将它们与用户、开发者和社会保持一致的新问题。由于代理的行动受其对风险的态度影响,因此对齐的一个关键方面涉及自主式 AI 的风险概况。风险对齐对于用户满意度和信任至关重要,但它也将对更广泛的社会产生重大影响,尤其是在自主式 AI 变得更加自主并被允许控制我们生活关键方面时。对风险采取鲁莽态度的 AI(无论是由于它们被校准到鲁莽的人类用户,还是设计不当)可能会构成重大威胁。它们也可能打开“责任差距”,在这种差距中,没有代理可以对有害行为负责。哪些风险态度应该指导自主式 AI 的决策?我们如何设计与用户风险态度相匹配的 AI 系统?应该对允许的风险态度范围设置哪些护栏(如果有)?在设计代表他人做出风险决策的系统时,涉及哪些伦理考虑?我们提出了三篇论文,这些论文涉及这些问题的关键规范和技术方面。