LLM2D
伪新闻检测_after LLM漂洗:度量与解释
Fake News Detection After LLM Laundering: Measurement and Explanation
作者: Rupak Kumar Das, Jonathan Dodge
发布日期: 2/3/2025
arXiv ID: oai:arXiv.org:2501.18649v1

摘要

arXiv:2501.18649v1 类型: cross 摘要:随着其先进的能力,大型语言模型(LLMs)可以生成高度令人信服且上下文相关的假新闻,这可以促进错误信息的传播。尽管在人类撰写的文本假新闻检测方面已有大量研究,但在检测由LLM生成的假新闻方面,该领域仍相对未被充分探索。这项研究衡量了检测器在识别LLM改写假新闻方面的功效,特别是确定在检测流程中添加改写步骤是否会有助于或妨碍检测。本研究贡献如下:(1) 检测器在识别LLM改写假新闻方面比识别人类撰写的文本更加困难;(2) 我们发现哪些模型在哪些任务上表现突出(逃避检测、改写以逃避检测和为了语义相似性改写);(3) 通过LIME解释,我们发现检测失败的一个可能原因:情绪转移;(4) 我们发现了一个令人担忧的改写质量测量趋势:尽管使用高BERTSCORE,仍表现出情绪转移的样本;(5) 我们提供了一组数据集,将改写输出和评分添加到现有数据集中。该数据集可在GitHub上获取。