LLM2D

摘要

arXiv:2406.11260v3 Announce Type: replace-cross 摘要：假新闻的传播对个人造成了伤害，并且提出了一个必须解决的关键社会挑战。尽管开发了许多算法和洞察力特征来检测假新闻，但许多这些特征可以通过风格变换攻击被操纵，特别是在先进语言模型出现之后，使得将假新闻与真实新闻区分开变得更加困难。本文提出了一种对抗性风格增强方法 AdStyle，旨在训练一个对各种风格变换攻击具有鲁棒性的假新闻检测器。主要机制涉及战略性使用大语言模型自动生成多样且连贯的风格变换攻击提示，增强检测器生成特别具有挑战性的提示的能力。实验表明，我们的增强策略在评估假新闻基准数据集时，显著提高了鲁棒性和检测性能。