LLM2D

摘要

随着人工智能生成文本的数量和质量不断增长，检测这类内容变得越来越困难。在大多数现实场景中，生成数据的领域（风格和主题）以及生成模型事先未知。在本研究中，我们关注基于分类器的 AI 生成文本检测器的鲁棒性，即它们在未见过的生成器或语义领域上的迁移能力。我们研究了基于 Transformer 的文本编码器嵌入空间的几何形状，并表明清除有害的线性子空间有助于训练一个鲁棒的分类器，忽略特定于领域的虚假特征。我们研究了几种子空间分解和特征选择策略，并在跨域和跨生成器迁移方面取得了显著的改进。我们针对 RoBERTa 和 BERT 嵌入分别采用逐头和基于坐标的子空间移除方法，在特定配置下，平均异分布 (OOD) 分类得分分别提高了 9% 和 14%。我们发布了我们的代码和数据：https://github.com/SilverSolver/RobustATD