摘要
基于大型语言模型的智能体在任务规划领域展现出巨大潜力,并吸引了广泛关注。鉴于这些智能体将被整合到高风险领域,确保其可靠性和安全性至关重要。本文提出了一种基于智能体宪法的智能体框架——TrustAgent,特别侧重于提高基于大型语言模型的智能体安全性。该框架通过三个战略组件确保严格遵守智能体宪法:预规划策略,在计划生成之前向模型注入安全知识;规划中策略,在计划生成过程中增强安全性;以及规划后策略,通过规划后检查确保安全性。我们的实验结果表明,该框架可以通过在规划过程中识别和缓解潜在危险,有效地提高大型语言模型智能体在多个领域的安全性。进一步分析表明,该框架不仅提高了安全性,而且增强了智能体的帮助性。此外,我们强调了大型语言模型推理能力在遵守宪法方面的重要性。本文阐明了如何确保基于大型语言模型的智能体安全地融入以人为中心的環境。数据和代码可在 https://github.com/agiresearch/TrustAgent 获取。