LLM2D

摘要

arXiv:2501.18649v1 类型: cross 摘要：随着其先进的能力，大型语言模型（LLMs）可以生成高度令人信服且上下文相关的假新闻，这可以促进错误信息的传播。尽管在人类撰写的文本假新闻检测方面已有大量研究，但在检测由LLM生成的假新闻方面，该领域仍相对未被充分探索。这项研究衡量了检测器在识别LLM改写假新闻方面的功效，特别是确定在检测流程中添加改写步骤是否会有助于或妨碍检测。本研究贡献如下：(1) 检测器在识别LLM改写假新闻方面比识别人类撰写的文本更加困难；(2) 我们发现哪些模型在哪些任务上表现突出（逃避检测、改写以逃避检测和为了语义相似性改写）；(3) 通过LIME解释，我们发现检测失败的一个可能原因：情绪转移；(4) 我们发现了一个令人担忧的改写质量测量趋势：尽管使用高BERTSCORE，仍表现出情绪转移的样本；(5) 我们提供了一组数据集，将改写输出和评分添加到现有数据集中。该数据集可在GitHub上获取。