LLM2D

摘要

arXiv:2505.00626v1 类型: cross 摘要: 集成了多种输入角色（例如，系统指令、用户查询、外部工具输出）的大语言模型在实践中越来越普遍。确保模型能够准确区分每个角色的信号——我们称之为“角色分离”——是实现一致的多角色行为的关键。尽管近期的工作往往针对最先进的提示注入防御方法，但仍不清楚这些方法是否真正教会大语言模型区分角色，还是仅仅记忆了已知的触发信号。在这篇论文中，我们研究了“角色分离学习”：培训大语言模型以稳健地区分系统和用户标记的过程。通过一个“简单且受控的实验框架”，我们发现，微调模型通常依赖于两种角色识别的替代手段：(1) 任务类型利用，以及 (2) 靠近文本开头的位置。虽然数据增强可以在一定程度上缓解这些捷径，但通常会导致不断打补丁而不是根本性修复。为了应对这一问题，我们提出了强化标记角色边界的“不变信号”的方法：通过调整模型输入编码中的标记间线索。特别是，操纵位置ID有助于模型学习更清晰的区别，并减少对其表面替代信号的依赖。通过这种以机制为中心的观点，我们的工作揭示了大语言模型如何在不简单记忆已知提示或触发信号的情况下，更可靠地维护一致的多角色行为。