LLM2D

摘要

arXiv:2504.14650v1 安全公告类型: 新颖摘要: 大型语言模型（LLMs）因其高级推理和理解能力，在增强具身代理的任务规划能力方面显示出巨大的潜力。然而，这些代理的整体安全性仍然是一个未被充分探索的领域。在本研究中，我们提出Safe-BeAl，这是一种用于测量（SafePlan-Bench）和对齐（Safe-Align）基于LLM的具身代理行为的安全整合框架。SafePlan-Bench建立了一个全面的任务规划安全性评估基准，涵盖了2,027个日常任务及其对应的环境，并分布在8个不同的危险类别中（例如，火灾危险）。我们的实证分析表明，即使在没有对抗性输入或恶意意图的情况下，基于LLM的代理也可能表现出不安全的行为。为缓解这些隐患，我们提出了Safe-Align，这是一套方法，旨在将物理世界的安全知识集成到基于LLM的具身代理中，同时保持任务特定的性能。在多种环境下的实验表明，Safe-BeAl 提供了全面的安全验证，相比基于GPT-4的具身代理，安全性能提高了8.55 - 15.22%，同时确保了任务的成功完成。