LLM2D

摘要

arXiv:2501.11849v3 Announce Type: replace-cross 摘要：检测有组织的政治运动对于打击社交媒体上的虚假信息至关重要。目前用于识别此类有组织行动的方法主要采用网络科学、图机器学习和自然语言处理的技术。它们的最终目标是分析用户之间的关系和互动（例如转发），以及其帖子的文本相似性。尽管这些方法在识别星哨兵运动方面具有有效性，但它们面临显著的挑战，特别是可用训练数据集中的类别不平衡问题。为了缓解这一问题，最近的方法通常依赖于数据增强或增加正样本的数量，但在现实世界的场景中这可能并不总是可行或足够的。遵循不同的路径，本文提出了一种基于大规模语言模型（LLMs）的新型框架来识别星哨兵运动，引入了一个平衡检索增强生成（Balanced RAG）组件。我们的方法首先将有关帖子（在我们的情况下是推文）的文本信息及其社交网络中的用户互动作为输入提供给语言模型。然后，通过提示工程和提出的平衡检索增强生成方法，它有效地在X（推特）上检测了有组织的虚假信息运动。提出的框架不需要对语言模型进行任何训练或微调。相反，通过战略性地利用提示工程和平衡检索增强生成的优点，它使LLMs能够克服类别不平衡的影响，并有效地识别有组织的政治运动。实验结果表明，通过结合提出的提示工程和平衡检索增强生成方法，我们的框架在精度、召回率和F1分数方面比传统的图基线取得了2倍到3倍的改进。