LLM2D

摘要

arXiv:2501.11849v2 声明类型: replace-cross 摘要：检测有组织的政治运动对于打击社交媒体上的虚假信息至关重要。现有的此类有组织行动的识别方法主要采用网络科学、图机器学习和自然语言处理技术。他们的最终目的是分析用户之间以及其帖子文本相似性的关系与交互（例如再转发）。尽管这些方法在识别伪装成草根运动的虚假信息方面表现有效，但它们仍然面临重大挑战，尤其是可用训练数据集中存在的类别不平衡问题。为了缓解这一问题，近期的方法通常依赖数据增强或增加正样本的数量，但在实际应用中这可能并不可行或不够充分。遵循不同的路径，在这篇论文中，我们提出了一种新的基于大规模语言模型（LLM）的框架来识别伪装成草根运动的虚假信息，引入了平衡检索增强生成（Balanced RAG）组件。我们的方法首先将有关帖子（在我们的情况下为推文）的文本信息以及社交网络中的用户交互作为输入提供给语言模型。然后，通过提示工程和提出的Balanced RAG方法，它有效地在X（推特）上检测到协调的虚假信息运动。所提出的框架不需要对语言模型进行任何训练或微调。相反，通过战略性地利用提示工程和Balanced RAG的优势，它使LLMs能够克服类别不平衡的影响并有效识别有组织的政治运动。实验结果表明，通过结合提出的提示工程和Balanced RAG方法，我们的框架在精确度、召回率和F1分数上比传统的基于图的基线实现了2至3倍的改进。