LLM2D

摘要

arXiv:2505.00626v2 宣告类型: replace-cross 摘要: 集成了多种输入角色（例如，系统指令、用户查询、外部工具输出）的大规模语言模型（LLMs）在实践中越来越普遍。确保模型能够准确区分来自各个角色的信息——我们称之为“角色分离”——对于一致的多角色行为至关重要。尽管最近的工作往往针对最先进的提示注入防御，但尚不清楚这些方法是否真的教会LLMs区分角色，还是只是记住了已知的触发因素。在本文中，我们研究了“角色分离学习”：教授LLMs robustly区分子系统和用户标记的过程。通过一个“简单且受控的实验框架”，我们发现微调模型通常依赖于两种角色识别的替代方案：(1) 任务类型的利用，和 (2) 距离文本开头的近似度。尽管数据增强可以在一定程度上缓解这些捷径，但它通常导致不断修补而不是根本解决问题。为了解决这一问题，我们提出通过调整模型输入编码中各个标记的提示来强化“不变信号”，从而标注角色边界。特别是，操纵位置ID有助于模型学习更清晰的区分，并减少对表面替代方案的依赖。通过关注这种方法中心的观点，我们的工作揭示了如何让LLMs在不单纯记忆已知提示或触发因素的情况下，更可靠地保持一致的多角色行为。