LLM2D

摘要

人工智能代理在与人类用户和工具的交互中越来越自主，导致交互安全风险增加。我们提出了 HAICOSYSTEM，一个框架，用于检查人工智能代理在多样化和复杂社会交互中的安全性。HAICOSYSTEM 具有一个模块化沙箱环境，模拟人类用户和人工智能代理之间的多回合交互，其中人工智能代理配备了各种工具（例如，患者管理平台）来应对不同的场景（例如，用户试图访问其他患者的个人资料）。为了检查人工智能代理在这些交互中的安全性，我们开发了一个全面的多维评估框架，使用涵盖操作、内容相关、社会和法律风险的指标。通过运行基于七个领域（例如，医疗保健、金融、教育）的 92 个场景的 1840 次模拟，我们证明了 HAICOSYSTEM 可以模拟现实的用户-人工智能交互以及人工智能代理的复杂工具使用。我们的实验表明，最先进的 LLM（专有和开源的）在超过 50% 的情况下存在安全风险，模型在与模拟恶意用户交互时通常表现出更高的风险。我们的发现突出了构建能够安全地应对复杂交互的代理的持续挑战，尤其是在面对恶意用户时。为了促进人工智能代理安全生态系统的发展，我们发布了一个代码平台，允许从业人员创建自定义场景，模拟交互，并评估其代理的安全性与性能。