LLM2D

摘要

arXiv:2504.21019v1 类型: cross 摘要：大型语言模型的日益流行引发了对其生成文本（AIGT）潜在误用的担忧。建立一种具有高泛化能力和鲁棒性的AIGT检测方法变得日益重要。然而，现有的方法要么侧重于模型泛化，要么集中于鲁棒性。同时解决泛化和鲁棒性的统一机制探索较少。在本文中，我们认为鲁棒性可以被视为特定形式的领域转移，并通过强化学习引入动态扰动，以及精心设计的奖励和动作，揭示了AIGT检测任务中模型泛化机制的内在机制。然后，我们提出了一种新的AIGT检测方法（DP-Net）。实验结果显示，在三种跨域场景下，提出的DP-Net在泛化能力上显著优于一些最先进的AIGT检测方法。同时，DP-Net在两种文本对抗攻击下的鲁棒性达到最佳。代码已公开发布在 https://github.com/CAU-ISS-Lab/AIGT-Detection-Evade-Detection/tree/main/DP-Net。