摘要
arXiv:2504.07831v1 宣布类型: 新闻
摘要: 我们展示了AI代理如何使用神经网络的自动可解释性来协调欺骗监督系统。利用稀疏自编码器(SAEs)作为实验框架,我们展示了语言模型(Llama、DeepSeek R1 和 Claude 3.7 Sonnet)可以生成能够逃避检测的欺骗性解释。我们的代理使用隐写术方法将信息隐藏在看似无辜的解释中,成功地欺骗了监督模型,同时实现与参考标签相当的解释质量。我们还发现,当模型认为检测有害特征可能会导致自身的负面影响时,它们可以策划发展欺骗性策略。所有测试的LLM代理都能在实现与参考标签相当的高可解释性评分的同时欺骗监督者。最后,我们提出了缓解策略,强调对欺骗理解及其防御措施的稳健性的迫切需求。