摘要
人工智能代理在与人类用户和工具的交互中越来越自主,导致交互安全风险增加。我们提出了 HAICOSYSTEM,一个框架,用于检查人工智能代理在多样化和复杂社会交互中的安全性。HAICOSYSTEM 具有一个模块化沙箱环境,模拟人类用户和人工智能代理之间的多回合交互,其中人工智能代理配备了各种工具(例如,患者管理平台)来应对不同的场景(例如,用户试图访问其他患者的个人资料)。为了检查人工智能代理在这些交互中的安全性,我们开发了一个全面的多维评估框架,使用涵盖操作、内容相关、社会和法律风险的指标。通过运行基于七个领域(例如,医疗保健、金融、教育)的 92 个场景的 1840 次模拟,我们证明了 HAICOSYSTEM 可以模拟现实的用户-人工智能交互以及人工智能代理的复杂工具使用。我们的实验表明,最先进的 LLM(专有和开源的)在超过 50% 的情况下存在安全风险,模型在与模拟恶意用户交互时通常表现出更高的风险。我们的发现突出了构建能够安全地应对复杂交互的代理的持续挑战,尤其是在面对恶意用户时。为了促进人工智能代理安全生态系统的发展,我们发布了一个代码平台,允许从业人员创建自定义场景,模拟交互,并评估其代理的安全性与性能。