LLM2D
MegaFake:一个基于理论的由大型语言模型生成的假新闻数据集
MegaFake: A Theory-Driven Dataset of Fake News Generated by Large Language Models
作者: Lionel Z. Wang, Yiming Ma, Renfei Gao, Beichen Guo, Han Zhu, Wenqi Fan, Zexin Lu, Ka Chung Ng
发布日期: 9/26/2024
arXiv ID: oai:arXiv.org:2408.11871v2

摘要

大型语言模型 (LLM) 的出现彻底改变了在线内容创作,使得生成高质量的假新闻变得更加容易。这种滥用行为威胁着我们数字环境的完整性和道德标准。因此,了解 LLM 生成假新闻背后的动机和机制至关重要。在本研究中,我们从社会心理学角度分析了假新闻的生成,并开发了一个全面的基于 LLM 的理论框架,即 LLM-Fake 理论。我们引入了一种新颖的管道,该管道使用 LLM 自动生成假新闻,从而消除了对手动标注的需求。利用此管道,我们创建了一个理论化的机器生成假新闻数据集 MegaFake,该数据集源自 GossipCop 数据集。我们进行了全面的分析以评估我们的 MegaFake 数据集。我们相信,我们的数据集和见解将为未来专注于 LLM 时代假新闻检测和治理的研究提供宝贵的贡献。