摘要
arXiv:2504.15699v2 宣告类型:替换
摘要:具身智能体在众多领域展现出巨大的潜力,确保其行为安全已成为其广泛应用的基本前提。然而,现有的研究主要集中在通用大型语言模型的安全性上,缺乏专门针对具身智能体的安全基准和输入控制方法。为了填补这一空白,本文提出了一种新的输入控制框架,专门设计以保护具身智能体的安全。该框架涵盖了整个流程,包括分类学定义、数据集策展、调节者架构、模型训练和严格的评估。值得注意的是,我们引入了EAsafetyBench,这是一项精心设计的安全基准,旨在促进并严格评估专门针对具身智能体的调节者。此外,我们还提出了Pinpoint,这是一种创新的提示解耦输入控制方案,利用掩码注意力机制有效隔离和减轻功能提示对控制任务的影响。在多种基准数据集和模型上进行的广泛实验验证了提出方法的可行性和有效性。结果表明,我们的方法在多个基准上的平均检测准确率达到94.58%,超越了现有最先进技术的性能,同时每个实例的调节处理时间仅为0.002秒。