摘要
arXiv:2502.12197v1 公告类型:交叉学科
摘要:系统提示在指定聊天和代理设置中LLM行为方面已成为一个关键的控制面。开发人员依赖系统提示来指定重要的上下文、输出格式、个性、护栏、内容政策和安全对策,所有这些都需要模型在面对冲突或对抗性用户输入时能够坚定地遵循系统提示。实际上,模型常常忽略了相关的护栏,或者无法解决系统和用户之间相互冲突的需求。在这项工作中,我们通过基于从OpenAI的GPT Store和HuggingFace的HuggingChat收集的提示来创建现实的新评估和微调数据集,研究了提高系统提示稳健性的各种方法。我们的实验评估新和现有基准模型表明,使用现实的微调数据以及推理时的干预措施(例如无分类器引导)可以显著提高性能。最后,我们分析了OpenAI和DeepSeek最近发布的推理模型的结果,这些结果显示了在我们研究的基准测试上令人兴奋但不均衡的进步。总体而言,当前的技术尚不能确保系统提示的稳健性,因此还需要进一步的研究。