LLM2D
使用ML、DL和LLM在Tweets/X中进行多语言网络威胁检测:一种比较分析
Multi-Lingual Cyber Threat Detection in Tweets/X Using ML, DL, and LLM: A Comparative Analysis
作者: Saydul Akbar Murad, Ashim Dahal, Nick Rahimi
发布日期: 2/10/2025
arXiv ID: oai:arXiv.org:2502.04346v1

摘要

arXiv:2502.04346v1 交叉公告类型 摘要:随着假信息和有害内容在社交媒体平台(如 Twitter,现在称作 'X')上的传播日益广泛,在当今数字时代,网络威胁检测已成为一个重要领域。这些网络威胁经常隐藏在推文中,对个人、社区乃至国家构成了重大风险,突显了有效检测系统的重要性。虽然之前的研究已经探索了基于推文的威胁,但许多工作局限于特定语言、领域或地理位置,或者依赖于单一模型方法,这限制了其在多种实际场景中的适用性。为了弥补这些不足,我们的研究重点是使用多种先进模型进行多语言推文网络威胁检测。研究分为三个阶段进行:(1)我们使用手动和极性标注方法收集并标注了四种语言(英语、中文、俄语和阿拉伯语)的推文数据集,以确保高质量的注释;(2)通过对每个数据集进行机器学习(ML)和深度学习(DL)模型的单独分析,评估其在不同语言中的性能;(3)最后,我们将这四个数据集合并成一个多语言数据集,并应用深度学习和大型语言模型(LLM)架构来评估它们在多种语言中识别网络威胁的有效性。我们的结果显示,在机器学习模型中,随机森林(RF)获得了最高的性能;然而,Bi-LSTM架构在所有数据集中的表现始终优于其他DL和LLM架构。这些发现证明了Bi-LSTM在多语言网络威胁检测中的有效性。此论文的代码可在以下链接找到:https://github.com/Mmurrad/Tweet-Data-Classification.git。