摘要
arXiv:2504.14650v1 安全公告类型: 新颖
摘要: 大型语言模型(LLMs)因其高级推理和理解能力,在增强具身代理的任务规划能力方面显示出巨大的潜力。然而,这些代理的整体安全性仍然是一个未被充分探索的领域。在本研究中,我们提出Safe-BeAl,这是一种用于测量(SafePlan-Bench)和对齐(Safe-Align)基于LLM的具身代理行为的安全整合框架。SafePlan-Bench建立了一个全面的任务规划安全性评估基准,涵盖了2,027个日常任务及其对应的环境,并分布在8个不同的危险类别中(例如,火灾危险)。我们的实证分析表明,即使在没有对抗性输入或恶意意图的情况下,基于LLM的代理也可能表现出不安全的行为。为缓解这些隐患,我们提出了Safe-Align,这是一套方法,旨在将物理世界的安全知识集成到基于LLM的具身代理中,同时保持任务特定的性能。在多种环境下的实验表明,Safe-BeAl 提供了全面的安全验证,相比基于GPT-4的具身代理,安全性能提高了8.55 - 15.22%,同时确保了任务的成功完成。