摘要
AI智能体与其人类用户和工具的交互日益自主,导致交互安全风险增高。我们提出了HAICOSYSTEM框架,用于研究AI智能体在多样化和复杂社会交互中的安全性。HAICOSYSTEM具有模块化沙盒环境,模拟人类用户和AI智能体之间的多轮交互,其中AI智能体配备各种工具(例如,患者管理平台)以应对各种场景(例如,用户试图访问其他患者的个人资料)。为了检查AI智能体在这些交互中的安全性,我们开发了一个全面的多维评估框架,该框架使用涵盖操作、内容相关、社会和法律风险的指标。通过基于七个领域(例如,医疗保健、金融、教育)的92个场景运行1840次模拟,我们证明HAICOSYSTEM可以模拟现实的用户-AI交互和AI智能体的复杂工具使用。我们的实验表明,最先进的LLM(专有和开源)在超过50%的情况下存在安全风险,并且模型在与模拟恶意用户交互时通常表现出更高的风险。我们的研究结果突出了构建能够安全地进行复杂交互的智能体的持续挑战,尤其是在面对恶意用户时。为了促进AI智能体安全生态系统的发展,我们发布了一个代码平台,允许从业人员创建自定义场景、模拟交互以及评估其智能体的安全性和性能。