摘要
随着功能强大的大型语言模型 (LLM) 的广泛出现,大型语言模型 (LLM) 生成的虚假信息已成为一项重大关切。历史上,LLM 检测器被吹捧为解决方案,但它们在现实世界中的有效性仍有待证明。在本文中,我们关注信息操作中的一个重要场景——由中等水平的攻击者生成的简短新闻式帖子。
我们证明,现有的 LLM 检测器,无论是零样本还是专门训练的,都还没有准备好用于该场景的现实世界应用。所有经过测试的零样本检测器在之前的基准测试中表现不一致,并且对采样温度增加高度敏感,而采样温度增加是一种简单的攻击,在最近的基准测试中缺失。可以开发一种跨 LLM 和未见攻击进行泛化的专门训练的检测器,但它无法泛化到新的由人类编写的文本。
我们认为,前者表明需要特定领域的基准测试,而后者表明了对抗性规避弹性和过度拟合参考人类文本之间的权衡,两者都需要在基准测试中进行评估,目前尚不存在。我们认为,这表明需要重新考虑当前的 LLM 检测器基准测试方法,并提供一个动态可扩展的基准测试来允许它(https://github.com/Reliable-Information-Lab-HEVS/benchmark_llm_texts_detection)。