LLM2D

摘要

随着功能强大的大型语言模型 (LLM) 的广泛出现，大型语言模型 (LLM) 生成的虚假信息已成为一项重大关切。历史上，LLM 检测器被吹捧为解决方案，但它们在现实世界中的有效性仍有待证明。在本文中，我们关注信息操作中的一个重要场景——由中等水平的攻击者生成的简短新闻式帖子。我们证明，现有的 LLM 检测器，无论是零样本还是专门训练的，都还没有准备好用于该场景的现实世界应用。所有经过测试的零样本检测器在之前的基准测试中表现不一致，并且对采样温度增加高度敏感，而采样温度增加是一种简单的攻击，在最近的基准测试中缺失。可以开发一种跨 LLM 和未见攻击进行泛化的专门训练的检测器，但它无法泛化到新的由人类编写的文本。我们认为，前者表明需要特定领域的基准测试，而后者表明了对抗性规避弹性和过度拟合参考人类文本之间的权衡，两者都需要在基准测试中进行评估，目前尚不存在。我们认为，这表明需要重新考虑当前的 LLM 检测器基准测试方法，并提供一个动态可扩展的基准测试来允许它（https://github.com/Reliable-Information-Lab-HEVS/benchmark_llm_texts_detection）。