LLM2D
PICO:通过 robust 提示隔离和网络安全监督实现的安全变压器
PICO: Secure Transformers via Robust Prompt Isolation and Cybersecurity Oversight
作者: Ben Goertzel, Paulos Yibelo
发布日期: 5/1/2025
arXiv ID: oai:arXiv.org:2504.21029v1

摘要

arXiv:2504.21029v1 Announce Type: cross 摘要:我们提出了一种鲁棒的变压器架构,旨在防止注入式提示攻击,确保生成安全可靠的响应。我们的PICO(提示隔离和网络安全监督)框架通过双通道独立处理和在受控门控融合机制下合并,结构上将受信任的系统指令与不受信任的用户输入分离。此外,我们在Mixture-of-Experts(MoE)框架内集成了一个专门的Security Expert Agent,并引入了一个网络安全知识图谱(CKG)以提供领域特定的推理。我们的训练设计进一步确保系统提示分支保持不变,而其余网络则学习安全地处理对抗性输入。PICO框架通过一般数学公式进行介绍,然后从变压器架构的具体方面进行详细说明,并通过包括政策木偶攻击在内的假设案例研究进行具体阐述。虽然最有效的实现方式可能是从头开始以PICO为基础训练变压器,但我们也提出了一个成本效益高的微调方法。