摘要
arXiv:2505.00626v2 宣告类型: replace-cross
摘要: 集成了多种输入角色(例如,系统指令、用户查询、外部工具输出)的大规模语言模型(LLMs)在实践中越来越普遍。确保模型能够准确区分来自各个角色的信息——我们称之为“角色分离”——对于一致的多角色行为至关重要。尽管最近的工作往往针对最先进的提示注入防御,但尚不清楚这些方法是否真的教会LLMs区分角色,还是只是记住了已知的触发因素。在本文中,我们研究了“角色分离学习”:教授LLMs robustly区分子系统和用户标记的过程。通过一个“简单且受控的实验框架”,我们发现微调模型通常依赖于两种角色识别的替代方案:(1) 任务类型的利用,和 (2) 距离文本开头的近似度。尽管数据增强可以在一定程度上缓解这些捷径,但它通常导致不断修补而不是根本解决问题。为了解决这一问题,我们提出通过调整模型输入编码中各个标记的提示来强化“不变信号”,从而标注角色边界。特别是,操纵位置ID有助于模型学习更清晰的区分,并减少对表面替代方案的依赖。通过关注这种方法中心的观点,我们的工作揭示了如何让LLMs在不单纯记忆已知提示或触发因素的情况下,更可靠地保持一致的多角色行为。