摘要
arXiv:2504.21019v1 类型: cross
摘要:大型语言模型的日益流行引发了对其生成文本(AIGT)潜在误用的担忧。建立一种具有高泛化能力和鲁棒性的AIGT检测方法变得日益重要。然而,现有的方法要么侧重于模型泛化,要么集中于鲁棒性。同时解决泛化和鲁棒性的统一机制探索较少。在本文中,我们认为鲁棒性可以被视为特定形式的领域转移,并通过强化学习引入动态扰动,以及精心设计的奖励和动作,揭示了AIGT检测任务中模型泛化机制的内在机制。然后,我们提出了一种新的AIGT检测方法(DP-Net)。实验结果显示,在三种跨域场景下,提出的DP-Net在泛化能力上显著优于一些最先进的AIGT检测方法。同时,DP-Net在两种文本对抗攻击下的鲁棒性达到最佳。代码已公开发布在 https://github.com/CAU-ISS-Lab/AIGT-Detection-Evade-Detection/tree/main/DP-Net。