摘要
arXiv:2504.05871v1 宣传类型: 新
摘要: 随着智能代理在数字生态系统中的日益部署,如社交媒体平台,对可追溯性和问责制的关注显著增加,特别是在网络安全和数字内容保护方面。传统的大型语言模型(LLM)水印技术依赖于令牌级别的修改,对于代理来说由于行为令牌化和行为到行动转换中的信息丢失的挑战而不太适合。为了解决这些问题,我们提出了一种名为Agent Guide的新颖行为水印框架,通过概率偏置引导代理的高层次决策(行为),同时保持特定执行(行动)的自然性。我们的方法将代理行为分为两个层级,即行为(例如,选择书签)和行动(例如,带有特定标签的书签),并在行为概率分布中应用水印引导的偏置。我们采用基于z统计量的统计分析来检测水印,确保在多轮中可靠提取。在具有多样化代理配置文件的社交媒体场景中的实验表明,Agent Guide实现了有效的水印检测,并且误检率较低。我们的框架提供了一种实用且 robust的代理水印解决方案,适用于识别恶意代理并保护专有代理系统。