LLM2D

摘要

arXiv:2504.15699v1 宣传类型: 新摘要: 体现式代理在众多领域展现出巨大的潜力，确保其行为安全性是实现其广泛应用的基本前提。然而，现有研究主要集中在通用大型语言模型的安全性上，缺乏专门针对体现式代理的安全基准和输入调节方法。为解决这一问题，本文介绍了一种新颖的输入调节框架，精心设计以保护体现式代理的安全性。该框架涵盖了整个流程，包括分类学定义、数据集编制、调节器架构、模型训练以及严格的评估。值得一提的是，我们引入了EAsafetyBench，这是一种精心设计的安全基准，旨在促进专门针对体现式代理的调节器的训练和严格评估。此外，我们提出了Pinpoint，一种创新的提示脱钩式输入调节方案，利用掩码注意力机制有效地隔离和减轻功能提示对调节任务的影响。在多种基准数据集和模型上进行的广泛实验验证了所提出的方案的可行性和有效性。结果表明，我们的方法在平均检测准确率上达到了令人印象深刻的94.58%，超过了现有最先进的技术的性能，同时具备出色的调节处理时间，每实例仅为0.002秒。