LLM2D

摘要

arXiv:2502.04346v1 交叉公告类型摘要：随着假信息和有害内容在社交媒体平台（如 Twitter，现在称作 'X'）上的传播日益广泛，在当今数字时代，网络威胁检测已成为一个重要领域。这些网络威胁经常隐藏在推文中，对个人、社区乃至国家构成了重大风险，突显了有效检测系统的重要性。虽然之前的研究已经探索了基于推文的威胁，但许多工作局限于特定语言、领域或地理位置，或者依赖于单一模型方法，这限制了其在多种实际场景中的适用性。为了弥补这些不足，我们的研究重点是使用多种先进模型进行多语言推文网络威胁检测。研究分为三个阶段进行：（1）我们使用手动和极性标注方法收集并标注了四种语言（英语、中文、俄语和阿拉伯语）的推文数据集，以确保高质量的注释；（2）通过对每个数据集进行机器学习（ML）和深度学习（DL）模型的单独分析，评估其在不同语言中的性能；（3）最后，我们将这四个数据集合并成一个多语言数据集，并应用深度学习和大型语言模型（LLM）架构来评估它们在多种语言中识别网络威胁的有效性。我们的结果显示，在机器学习模型中，随机森林（RF）获得了最高的性能；然而，Bi-LSTM架构在所有数据集中的表现始终优于其他DL和LLM架构。这些发现证明了Bi-LSTM在多语言网络威胁检测中的有效性。此论文的代码可在以下链接找到：https://github.com/Mmurrad/Tweet-Data-Classification.git。