摘要
随着人工智能生成文本的数量和质量不断增长,检测这类内容变得越来越困难。在大多数现实场景中,生成数据的领域(风格和主题)以及生成模型事先未知。在本研究中,我们关注基于分类器的 AI 生成文本检测器的鲁棒性,即它们在未见过的生成器或语义领域上的迁移能力。我们研究了基于 Transformer 的文本编码器嵌入空间的几何形状,并表明清除有害的线性子空间有助于训练一个鲁棒的分类器,忽略特定于领域的虚假特征。我们研究了几种子空间分解和特征选择策略,并在跨域和跨生成器迁移方面取得了显著的改进。我们针对 RoBERTa 和 BERT 嵌入分别采用逐头和基于坐标的子空间移除方法,在特定配置下,平均异分布 (OOD) 分类得分分别提高了 9% 和 14%。我们发布了我们的代码和数据:https://github.com/SilverSolver/RobustATD